非参数统计第二章
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Xi X j 2
0, i j}
这里符号#{ }是满足符号{ }内条件的表达式的个数 (“#”相当于the number of)
若X1 ,, X n ~ F ( x ) ,即有位移 则有
W ( ) #{
Xi X j 2
, i j}
来做Wilcoxon符号秩检验。则
大样本正态近似 比较小时,可以用二项分布的公式来 计算精确 值。但当 比较大时,也可以 用正态分布来近似。 如果在零假设 H 0 : Q q0 下, K ~ Bin(n, ) 那么当 n 较大时,则可以认为
K n Z ~ N (0,1) n (1 )
2.1.2 基于符号检验的中位数及分位点的置信 区间
时 绝对值的秩只有1,2和3,共有8种可能的符号排列
秩 1 2 3 0 1/8 + 1 1/8 + 2 1/8 符号的8种组合 + 3 1/8 + + 3 1/8 + + 4 1/8 + + 5 1/8 + + + 6 1/8
W 在零假设下的分布并不复杂。例如 n 3
W
概率
W 3 出现了2次,因而 PH0 (W 3) 2 / 8
大样本时,有
n(n 1) n(n 1)(2n 1) k Z / 2 4 24
回看例2.3欧洲人酒精人均消费 Walsh平均有 n(n 1) / 2 55
中位数10.390是 的估计量。再求 的 (1 ) 置信区间 0.05( / 2 0.025) 时,查表有,对于
H1 : M 8
即检验为 H 0 : M 8 H1 : M 8 Wilcoxon 符号秩检验步骤如下: (1)对i 1,, n ,计算 | X i M 0 | 对于例2.3有3.88 2.19 0.37 1.74 2.39 3.92 4.32 4.89 5.54 6.45 n 个秩。 (2)把上面的 n 个绝对值排序,并找出它们的 P(W k 1) P(W n(n 1) / 2 k ) 1 如果有相同的样本点,每个点取平均秩(如1,4,4,5 的秩为1,2.5,2.5,4) 对于例2.3有秩为 5 3 1 2 4 6 7 8 9 10 (3)令W 等于X i M 0 0 的 | X i M 0 | 的秩的和。 W 等于X i M 0 0 的 | X i M 0 |的秩的和。 注意: W W n(n 1) / 2 加符号的秩为: -5 -3 -1 2 4 6 7 8 9 10
1. 2.
趋势检验(不依赖于趋势结构): Cox-Stuart 趋势检验 趋势的秩检验。(多样本问题)
Cox-Stuart 趋势检验的理论基础是符号检 验,可认为是符号检验的一个应用。
例2.4 天津机场从1995年1月到2003年12月的108个 月旅客吞吐量(人次)如下表.从这些数据,我们能 否说明这个差额总的趋势是增长,还是减少,还是 都不明显呢?
例2.2 下面是随机抽取的22个企业的纳税额(单位 :万元)。数据已经按照升幂排列
1.00 1.35 1.99 2.05 2.06 2.10 2.30 2.61 2.86 2.95 2.98 3.23 3.73 4.03 4.82 5.24 6.10 6.64 6.81 6.86 7.11 9.00
H1 : Q q0、H1 : Q q0或H1:Q q0
记样本中小于 q0 的点数为 S , 大于 q0 的点数为 S 。 s s 并用小写的 和 分别代表 S 和 S 的实现值。 n s s 记 按照零假设, s 与 n 之比应该约为 左右,或 s 大约等于 n , 而 s 与 n 之比应该约为 1 左右,或者说 s 大约等于 n(1 ) 。 s 如果 与 s 与此相差的很远,那么零假设可能有 问题 。
Baidu Nhomakorabea
2.1 广义符号检验和有关的置信区间
例2.1 下面是世界上71个大城市的花费指数(包括租 金),按递增次序牌类如下(这里上海是44位, 指数为63.5) 27.8 27.8 29.1 32.2 32.7 32.7 36.4 36.5 37.5 37.7 38.8 41.9 45.2 45.8 46 47.6 48.2 49.9 51.8 52.7 54.9 55 55.3 55.5 58.2 60.8 62.7 63.5 64.6 65.3 65.3 65.3 65.4 66.2 66.7 67.7 71.2 71.7 73.9 74.3 74.5 76.2 76.6 76.8 77.7 77.9 79.1 80.9 81 82.6 85.7 86.2 86.4 89.4 89.5 90.3 90.8 91.8 92.8 95.2 97.5 98.2 99.1 99.3 100 100.6 104.1 104.6 105 109.4 122.4
2.2 Wilcoxon 符号秩检验,点估计和区间估计 Wilcoxon 符号秩检验 符号检验利用率观察值与零假设的中心位置 之差的符号来检验,但没有利用这些差的大小(距 M 0 的远近)的信息。 已知信息越多,结论越有效,所以把已知距离 考虑进去更好,即Wilcoxon符号秩检验。 宗旨:把观测值和零假设的中心位置之差的绝对值 的秩分别按照不同的符号相加作为其检验统计量。 注意:假定样本点 X1 ,, X n 来自连续对称总体分布。 此时,总体中位数=均值 其目的与符号检验一致,即检验 H0 : M M 0
54379 45461 55408 59712 60776 57635 63335 71296 70250 76866 75561 66427 61330 58186 67799 76360 86207 75509 83020 89614 75791 80835 72179 61520 66726 60629 68549 73310 80719 67759 70352 82825 70541 74631 68938 53318 62653 58578 63292 69535 73379 62859 72873 87260 67559 76647 70590 58935 58161 64057 63051 58807 63663 57367 70854 79949 66992 80140 62260 55942 58367 56673 61039 74958 85859 67263 87183 97575 79988 88501 68600 58442 68955 56835 67021 81547 85118 70145 95080 106186 86103 88548 70090 65550 69223 85138 89799 99513 98114 68172 97366 116820 95665 109881 87068 75362 88268 85183 87909 79976 27687 50178 100878 131788 116293 120770 104958 109603
例2.3 下面是10个欧洲城镇每人每年平均消费的酒 类相当于纯酒精数(单位:升)。数据已经按照升 幂排列。 4.12 5.81 7.63 9.74 10.39 11.92 12.32 12.89 13.54 14.45
人们普遍认为欧洲各国人均年消费酒量的中位数相 当于纯酒精8升。为此进行检验: 设 M 0 8 ,即 H 0 : M 8 上述数据的中位数为11.160,因此备择假设为
第二章 单样本问题
经典统计关心的问题:已知总体 均值——位置变量 方差、标准差、极差——尺度变量
非参数统计关心的问题: 已知:样本 X1,, X n 位置变量? 尺度变量?
例如:在对人们的收入进行抽样之后,自然 要对“人均收入”和“中间收入”等概念 感兴趣。这就与统计中的对总体的均值 (mean),中位数(median)和众数(mode)等位 置参数的推断有关。 也可能想要知道收入多少才能够算“最富 的百分之五”之类的问题。这与分位点的 推断有关系。 除了位置,我们也希望通过数据知道它的 趋势和走向,这都是本章要研究的内容。
问题: (1)样本中位数M是否大于64.或者说是否 指数小于64的城市的比例少于0.5(或指数 大于64的比例是否大于0.5) (2)样本下四分位点(0.25分位点) 是否小于64,。等价的说,是否指数小于64 的城市的比例大于0.25(或指数小于64城 市的比例是否小于0.75)
由于中位数也是分位点(0.5分位点)。 所以,这两个问题实际上都是关于分位点 的检验问题,只不过一个是关于 0.5 分位 点,另一个是关于 0.25 分位点。这里面 也出现了求 分位点 Q 的100(1 )% 置信区间 问题。 本例中,分布未知,观察直方图
从图中很难说这是什么分布,我们根据 分位点的定义,并通过与分位点相关的 Bernoulli试验及二项分布的性质得到需要的 结果。 如果 Q 是总体的 分位点,那么意味 着总体中约有比例 那么多的个体小于Q 。 显然,关于 分位点的推断等价于关于比 例 的推断。
2.1.1 广义符号检验:对分位点进行的检验 广义符号检验:对连续变量 分位点 Q 进行 的检验。 狭义符号检验:仅针对中位数(或0.5分位点) 0.5 进行的检验。 假定检验的假设是: H 0 : Q q0 备择假设可能是:
(4)对双边检验 H0 : M M 0 H1 : M M 0 在零假设下, W 与 W 应差不多。因而,当其中之 一很小时,应怀疑零假设。取检验统计量
W min( W ,W )
类似地,对 H0 : M M 0 H1 : M M 0 ,取 W W 对 H0 : M M 0 H1 : M M 0 ,取 W W W W 9 例2.3,取 (5)根据得到的W的值,得到零假设下的 p 值。 如果n 很大要用正态近似 如果 n 不是很大,可以通过软件或者查Wilcoxon 符号秩检验的分布表,得到 p 值 (6)比较 p 与 ,若 p 则拒绝零假设。
在零假设 应该服从二项分 布 Bin(n, ) 。 下面就在二项分布变量的检验中如何计算p值 的问题给出一个表
H 0 : Q q0
S 下,
这类检验之所以叫做“符号检验”,是因为 S 为用所有样本点减去 q0之后,差为正的个数,而 S 为用所有样本点减去 q0 之后,差为负的个数。
n 10, P(W 9) P(W 8) 0.024 / 2
所以 k 9 ,置信区间为 [W(91) ,W(559) ) [8.02,12.73)
§2.4 Cox-Staut 趋势检验
在客观世界中会有许多各种各样随时间变动的数据序 列,我们通常关心这些数据随时间变化的规律,也就是进 行趋势分析。例如:依据病患人数判断疫情是否已经得到 控制,或者是否还在增长等等。 回归分析是常用的趋势分析工具,说明数据是否存在着线性 趋势,存在着怎样的线性趋势。但用回归分析也有其局限 性,问题在于: 如果模型不能通过检验,那么趋势是否存在? 是否应该将所有可能的检验穷尽才能回答这个问题? 即使模型通过检验,也只能说在模型的假设下,数据的趋 势是存在的。
2.2.2 基于Wilcoxon符号秩检验的点估计和置信区间 样本:n个 寻找对称中心,样本中位数即可 为了利用更多的信息,可以扩大样本数目: n(n 1) / 2 个) 求每两个数的平均 ( X i X j ) / 2, i j (共有 这样的平均称为Walsh平均。则
W #{
ˆ m edian {
Xi X j 2
, i j}
按升幂排列Walsh平均,记W1,,WN , ( N n(n 1) / 2) 则 的(1 )置信区间为
[W( k 1) ,W( N k ) )
这里 k 由 P(W k ) / 2, P(W n k ) / 2 决定。
W 和W 的Wilcoxon分布有关系为 注意
P(W k 1) P(W n(n 1) / 2 k ) 1 P(W k ) P(W n(n 1) / 2 k 1) 1
由于Wilcoxon符号秩检验要求总体分布对称,我们 现在将 H 0 : M 8 H1 8 与 H0 : M 12.5 H1 12.5 的检验结果进行比较.