卡方检验和非参数检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
使用卡方( 2 )检验的基本思路为:
(1) 确定统计量为
2
(fo fe)2
f 表格中所有元 e
其中 f o 为列联表中特定单元的观测频数,f e 为列联表中特定
单元的期望频数,因此这里的统计量 2 是观测频数和期望
频数差的平方除以每单元的期望频数,并对表中的所有单 元格取和求得;
11
(2) 可以证明上述统计量 2 近似服从自由度为1的 分2 布,因此在显
类 2(否)
64
108
172
总计
227
262
489
14
即可得到,如如下表表1所0.示4 :所示。
13
应用案例
有两家酒店,为了确定服务质量,要求顾客离开时
做满意度调查,顾客可能会再次入住;根据调查 数据得到的列联表如下表所示。问在显著性水平 的情况下,顾客会回到酒店一和酒店二的比例是 否相同。
酒店
是否再次入住
酒店一 酒店二
总计
类 1(是)
163
154
317
行变量
类 1(正向) 类 2(反向) 总计
组一
x1 n1 x1 n1
列变量
组二
x2 n2 x2 n2
总计
X , ( x1 x2)
n X n, ( n1 n2)
10
为了检验组一样本有关类1的比例是否等于第二组样本有关 类1的比例,即假设检验为: 原假设为两比例之间无显著差异: H0 : p1 p2 备择假设为两比例之间有差异: H1 : p1 p2
异;否则接受H0,即可以认为两者在水平下并无显著差
异。
5
某厂有一台经常需要维修的设备,该设备中有一个易损坏
的重负荷轴承,设备故障的主要原因是轴承损坏。为了制 定该设备的维修计划和维修预算,需要了解该轴承的寿命 分布。下表给出了100个轴承寿命的观察数据,问:该轴 承寿命是否服从正态分布?
107 155 105 148 49
信息。用 p 表示两组组合样本属于前面表中类1比例的估计值,则1 p
就是两组组合样本中属于类2比例的估计值。使用该表中的符号,p
的定义如下式所示。
p x1 x2 X n1 n2 n
12
这样,为了计算属于类 1(即列联表中第一行)的期望频数 fe ,用 p 乘以组一 (或组二)的样本容量 n1 (或 n2 )即可得到;类似的,为了计算属于类 2(即列联 表中第二行)的期望频数 fe ,用1 p 乘以组一(或组二)的样本容量 n1 (或 n2 )
7
区间 (- , 70 (70, 90 (90, 110 (110, 130 (130, 150 (150, 170 (170, +) 合计
fi
nPi
11
10.56
10
12.10
18
17.47
21
19.74
19
17.47
10
12.10
ຫໍສະໝຸດ Baidu
11
10.56
100
100
( fi nPi )2 nPi 0.0183 0.3645 0.0161 0.0804 0.1340 0.3645 0.0183 0.9961
著性水平下,决策规则为: 如果2 2 (1) ,拒绝 H 0 否则,接受 H 0 。 为了计算任意单元期望频数,必须知道如果原假设为真,那么两项
比例 p 1 和 p 2 是相同的,但要计算的每组样本比例有可能不同。每
组的样本比例都可以作为参数 p 1 和 p 2 的估计值。将两个独立比例
参数估计组合起来的统计量比各自独立的比例参数估计提供更多的
8
取显著性水平 = 0.25 (由于原假设H0是我们希望
得到的结果,为使检验结论更具说服力,控制的
重点应是与原假设H0不真而接受H0的概率,故
应取的稍大些)。本例中k = 7,r = 2,k –r -1 = 4。
2 0 .9 9 6 1 0 2 .2 5(4 ) 5 .3 8 5
故在水平 = 0.25下接受原假设H0,即可认为该轴
103 145 113 114
123 136 8
190 181 121 158 83
223 93
72
120 130 103 144 89
113 60
76
176
94
190 139 140 151 145 142 118 185 140
59
118 212 117 52
128 168 174 155 116
6
解:由表中数据,用Excel可求得
x =120.95, S2=40.582 ,故可作原假设
H0:X~ N (120,402) 将实轴划分为如下7个互不相交的区间。用Excel 的FREQUENCY函数计算数据落在各区间内的频 数,用NORMDIST函数求出各理论频数nPi ,统 计量的计算如表所示。
承的使用寿命服从N (120,402)分布。
9
§10.2 比例差异的 检2 验(独立样本)
1. 两个比例差异的检验
前面,我们研究了两个比例的Z检验。这部分从不同角度 检验数据。假设检验过程使用近似卡方( )分2 布的检验 数据。
如果想要比较两个独立样本组的分类变量,可以做两维 的列联表,显示每组的第1类(正向类,如“成功”, “是”等)和第2类(反向类,如“失败”,“否”等) 出现的频数,如表所示
2 k ( fi nPi )2
i1
nPi
4
(3) 可以证明,当n充分大时(n≥50),若H0为真,则统计量
2 k ( fi nPi )2
i1
nPi
近似服从(k -r -1)分布。其中r为分布F(x)中待定参数的个数。
于是在给定显著性水平下,若
2 2(kr1)
就拒绝H0,说明总体X的真实分布函数与F(x)间存在显著差
143 120 115 142 87
103 141 118 168 123 105 80
107 172 122
89
69
97
135 92
31
68
88
95
146
99
121 104 63
12
57
120 139 107 156
167 136 173 136 179 129 88
75
144 105
192 149 128 111 127 91
卡方检验和非参数检验
为以F(x)为分布函数的随机变量在区间 (ai, ai+1 上 取值的概率,i =1,2,…, k。则当H0为真时,由贝努 里定理,当n充分大时,n次独立重复试验结果的 实fi际n 频率 与其概率Pi之间的差异并不显著,于是 显然可以用统计量来刻画它们间总的差异的大小。
其中nPi为理论频数。其中nPi为理论频数。当H0为 真时,下式的值就应当较小