数理统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
得到k1,k2的连续修正后近似计算公式为
k1 n / 2 (0.5 z / 2 n / 2) k2 n / 2 (0.5 z / 2 n / 2)
(4.4.4)
中位数符号检验双边检验的P值:
H0: =0 ,H1: 0,
10/128
P值由下式确定: P=2P(Sn≤min{sn,n-sn})
8/128
n n n k 2 min{ k : P ( S n k )} min k : i 0.5 / 2 i k
当Sn k1或Sn k2时拒绝H0。
K1,k2可由P(Sn k1)=/2及P(Sn k2)=/2确定
上面结果是由 P( Sn k )连续修正为 P( Sn k 1 / 2)而得到。
中位数符号检验右边检验的P值:
H0 : 0 ; H1 : 0
Sn Zi 取值过大是极端事件. 当H0成立时,
i 1 n
7/128
令
P=P(Sn≥sn)
则当P很小时(小于0.05)时拒绝原假设,
H0:=0;H1:>0,这里为分布的中位数。
例 4.4.2 为检验在饮食中补充亚油酸对血压 的影响,选17位成人连续四周每日摄入23g红花 油。开始试验前,测量几次收缩压并取其平均 值作为基线收缩压,四周以后测量几次收缩压 并取其平均值,得到数据如表4.3。
15/128
在0.05的水平上检验红花油(或亚油酸)对降 低收缩压的有效性。
当n较大时,由中心极限定理
P(Sn k1)=/2及P(Sn k2)=/2即
9/128
Biblioteka Baidu
Sn n / 2 k1 n / 2 k1 n / 2 P ( Sn k1 ) P /2 n/ 4 n/ 4 n/ 4
S n n / 2 k2 n / 2 k2 n / 2 P ( Sn k2 ) P 1 /2 n/ 4 n/ 4 n/ 4
否则,不能拒绝原假设.
其中sn 为Sn的实际观测值.
若对立假设为H1: 0,Sn过小和过大都支持 H1假设。
则水平为的H0的拒绝域由下式确定: k1,k2满足
k n n k1 max{ k : P ( S n k )} max k : i 0.5 / 2 i 1
因此,当 Tn 过大时应拒绝 H0 ,即 H0 拒绝域的形式 为Tn k.
21/128
H0:=0成立时,对给定显著性水平,令
Ta(n)=min{k:P (Tnk )} 当Tn Ta(n)时,拒绝H0。 对于常见的 和 n , Ta(n) 的值已经列成表格,参见 附录E。
当n较大时,可用Tn的渐近正态性近似计算临界 值Ta(n)。 在H0:=0成立条件下,理论上可以得到 E(Tn)= n(n+1)/4, Var(Tn)= [n(n+1)(2n+1)]/24, 由中心极限定理可以证明,当n很大时,近似地 有
连续修正后 k n / 2 0.5 z n / 2
0.5为连续性修正量,使得近似值的精度更高。
关于连续修正的注:
6/128
在实践中当用连续分布近似离散分布时 , 常常 要用连续修正.通常一个离散分布点的概率P(X=x) 用连续分布的相应区间的概率P(x-1/2≤X≤x+1/2)来 近似,它把离散集中的一个点x变成一个单位区间 [ x-1/2 , x + 1/2 ],相应的离散点的概率就变成 了连续分布密度函数曲线下面的一个单位区间上 的 面 积 . 离 散 分 布 的 P(X≤x) 常 用 连 续 分 布 的 P(X≤x+1/2) 来近似 , 离散分布的 P(X≥x) 常用连续分 布的 P(X≥x-1/2) 来近似,这种对 x 加或减 1/2 的调整 成为连续性修正.
1.符号检验
3/128
设 X1,X2,…,Xn 是抽自总体 X~F(x) 的简单随机 样本, F(x) 为连续函数。记 X 的中位数为 ,由 于F(x)连续,有F()=0.5。 考虑假设 H0 : 0; H1 : 0 的检验。 H0成立意味着在该总体 X落在0两边的概率 均为0.5,因而X1- 0,X2- 0,…,Xn - 0中取正值的 个数和取负值的个数应接近; (4.4.1)
令
n 1, X i 0 Zi , Tn Ri Z i i 1 0, X i 0
20/128
(4.4.7)
其中 Ri 为 |Xi| 在 {|Xi|} 中的秩,称为 Xi 的符号秩,称 Tn为Wilcoxon符号秩和统计量。
当 H0 成立时, X1,X2,…,Xn 应大体对称地分布在 0 的 两侧;而 H1 成立时, X1,X2,…,Xn 中整数的个数应多于 一半,并且由对称性知, X1,X2,…,Xn在 的两侧分布 的稀疏是相同的,因而Tn的值偏大。
14
15 16
131.67
92.39 134.44
126.89
93.06 126.67
4.78
-0.67 7.77
17
108.67
108.67
0.00
解:由表4.3的第4列数据检验假设
H0:=0;H1:>0
17/128
由于Sn=13.5,临界值按近似公式
k n / 2 0.5 z n / 2
当P很小时(小于0.05)时拒绝原假设, 否则,不能拒绝原假设. 其中sn 为Sn的实际观测值.
11/128
例4.4.1 随机调查得到某个新兴行业从业人 员的 年收入数据如下(万元):
1.25 1.45 1.50 2.20 2.20 2.25 2.65 2.80 2.80 3.20 3.50 4.10 6.20 试检验该行业人员工资的中位数是否为 2.5,取显著 性水平为0.10。 解:记新兴行业从业人员工资的中位数为 ,此问 题归结为检验 H0:=2.5;H1:>2.5 易见Sn=7, k0.1 n / 2 0.5 z0.1 n / 2
16/128
表4.3 亚油酸对收缩压的影响 见P122.
对象
1 2 3 4 5 6 7 8 9 10 11 12 13
基线收缩压
119.67 100.00 123.56 109.89 96.22 133.33 115.78 126.39 122.78 117.44 111.33 117.33 120.67
若H1成立,则取正值的个数应大于取负值的 个数。
因此,如果取正值的个数过多,应拒绝H0
令
n 1, X i 0 0 Zi , Sn Z i i 1 0, X i 0 0
4/128
若H0成立,则Sn~B(n,0.5),ESn=0.5n, Var(Sn)=0.25n, 对给定的显著性水平,由下式确定临界值k:
计算得: k0.05=8.5+0.5+1.64171/2/2=12.38。 Sn>k0.05 因此,在 0.05 的显著水平下,拒绝“收缩压变 化的中位数为 0” 的假设,认为亚油酸对于降低 收缩压有利。
2.Wilcoxon符号秩检验
18/128
前面讨论符号检验时,没有对总体分布做任 何假定。下面在假定分布对称的条件下讨论中 位数的假设检验问题。 设 X1,X2,…,Xn 是抽自以 为对称中心的对称 分布X的简单随机样本,则是总体的中位数, 如果数学期望存在,也是数学期望。
13/128
14/128
在实际中经常遇到这样的问题,为考虑某种措 施是否有效,进行对比观测,观测值成对出现: (Xi,Yi),i=1,…,n,其中Xi为实施该措施后的观察值,Yi 为未实施该措施时的观察值。
假定这些观测值对是独立同分布的,并且若措 施有效,Xi倾向于取更大的值; 若措施没有影响,则应 P(Xi>Yi)= P(Xi<Yi)=0.5 这等价于 i=Xi-Yi的中位数为 0。于是,要考察措施 的有效性,可以把问题化为检验假设
n n i n i k min k : P{ S n k } min k : i 0.5 0.5 ik n n n min k : i 0.5 ik
当Sn k时,拒绝H0.
当n较大(比如大于15)时,可用中心极限定理 给出k的近似值:
5/128
Sn n / 2 k n / 2 k n / 2 P ( Sn k ) P 1 n/ 4 n/ 4 n/ 4 k n / 2 k n / 2 由1 ,即 1 n/ 4 n/ 4 得到 k n / 2 z , 从而k n / 2 z n / 2 n/4
4周后收缩压
117.33 98.78 123.83 107.67 95.67 128.89 113.22 121.56 126.33 110.39 107.00 108.44 117.00
基线收缩压-4周后收缩压
2.34 1.22 -0.27 2.22 0.55 4.44 2.56 4.83 -3.55 7.05 4.33 8.89 3.67
考虑假设
H0:=0;H1:>0
19/128
(4.4.6)
由于增加分布对称的条件,缩小了考虑问题的 范围,我们可以构造出比符号检验更有效的检 验——Wilcoxon符号秩检验。
首先引进秩的概念。
定义4.4.1 Xi在 X1,X2,…,Xn中的秩为Xi在顺序统 计量X(1)<X(2)<…<X(n)中的位置.
13 / 2 0.5 1.282 13 / 2 9.3
Sn< k0.1,由此在0.1的显著水平下不能拒绝H0。
书上有误!
说明:
上题最好改为检验
12/128
H0:=2.5;H1:≠2.5
在SAS-INSIGHT模块中做位置检验结果:
在此题中,如果要检验的原假设为 H0:=2.80, 则在计算Sn时,把观测值中等于2.80的数据个数 计入一半,因而Sn=5。
1/128
4.4
非参数假设检验
前面几节讨论的都是在总体分布族是参数族 的条件下,检验关于参数的假设。 在许多情况下,对于所检验的总体分布了解 不多或分布族不容易用参数族表示,此时可以 考虑用非参数假设检验。
2/128
4.4.1 单样本问题
从第二章我们知道,中位数是表示总体分 布位置特征的量之一。 当总体分布族不能表示为参数族时,经常 选用中位数来表示分布的位置,一是由于这样 就不必把数学期望不存在的分布排除在外,二 是由于对于中位数的统计推断常常不易受到污 染数据的干扰(稳健性)。 本小节主要讨论单个总体的中位数的检验 问题。
Tn n( n 1) / 4 ~ N (0,1) n( n 1)(2n 1) / 24
22/128
由此
T ( n) n( n 1) / 4 0.5 z n( n 1)(2n 1) 24
其中0.5是连续性修正。
例4.4.3 假定在4.4.2中“基线收缩压 -4周后收缩 压”的分布是对称的, 为其中位数。试检验 H0:=0;H1: >0,取水平为0.05。
解:容易计算, Tn=0.5+3+5+6+7+8+10+11+12+13+14+15+16+17 =137.5, 其中0.5是由于样本数值中有一个0。
23/128
T0.05(17)=112。
于是,拒绝H0,认为>0。
24/128
4.4.2 两样本问题
所谓两样本问题是指两个总体的比较。在 3.7和4.2中曾经讨论过两个正态总体的比较。这 里所要讨论的是两个总体的分布类型未知时如 何比较两个总体。