率的抽样误差及可信区间

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
n2p2 和n2(1- p2)均 >5
u p1 p2 S p1 p2
p1 p2
pc
(1
pc
)(
1 n1
1 n2
)
pc
X1 X2 n1 n2
n1 p1 n2 p2 n1 n2
u
0.1275 0.0313
2.1949 1.96
0.1045(1 0.1045)( 1 1 )
204 64
体率以及两样本率比较的u 检验。
率的u 检验能解决以下问题吗?
率的反应为生与死、阳性与阴性、发生与不 发生等二分类变量,如果二分类变量为非正反关 系(如治疗A、治疗B);反应为多分类,如何进 行假设检验?
率的u 检验要求:n足够大,且nπ≥5和 n(1-π)≥5。
如果条件不满足,如何进行假设检验?
小结
1.样本率也有抽样误差,率的抽样误差的
大小用σp或Sp来衡量。
2.率的分布服从二项分布。
当n足够大,π和1-π均不太小, 有nπ≥5和n(1-π)≥5时,
近似正态分布。
3.总体率的可信区间是用样本率估计总体
率的可能范围。当p 分布近似正态分布
时,可用正态近似法估计率的可信区间
4.根据正态近似原理,可进行样本率与总
12 3
2
2 0.05,1
3.84;
P 0.05
配对四格表资料的χ2检验公式推导
(+,)和(,+)两个格子中的理论频数均为
b c 40 时
一、样本率与总体率比较u检验 二、两个样本率的比较u检验
u 检验的条件: n p 和n(1- p)均大于5时
例如,一般高血压患病率为13.26%,农村抽样
=43/460=0.0935,即π0=0.1326
p
u
0
p
p 0
(1 )
0
0
n
0.0935 0.1326 2.4727 0.1326 (1 0.1326 ) 460
x2 =(ad-bc)2 xN/
(a+b)(c+d)(a+c)(b+d) 该公式从基本公式 推导而来,结果相 同。计算较为简单。
适用条件: N>40且
T5
当不满足时用校正公式。 适用条件: N>40且 1 ≤T <5
x2 =(|A-T|-0.5)2/T 或
x2 =(|ad-bc|-n/2)2 xN/ (a+b)(c+d)(a+c)(b+d)



78

生存
表 某抗癌新药两种剂量的毒理实验结果
结果
分组
合计
死亡(+) 生存(-)
甲剂量 (a ) (b )
乙剂量 (c ) (d )
合计
78
配对四格表资料的χ2检验 也称McNemar检验(McNemar's test)
H0:b,c来自同一个实验总体 (两种剂量的毒性无差异);
H1:b,c来自不同的实验总体 (两种剂量的毒性有差别);
甚至出假象第一节率的抽样误差及可信区间第一节率的抽样误差与可信区间第二节率的统计学推断一样本率与总体率比较的u检验二两个样本率比较的u检验第三节卡方检验一卡方检验的基本思想二四格表专用公式三连续性校正公式四配对四格表资料的2检验五行列rc表资料的2检验一率的抽样误差与标准误样本率p和总体率的差异称为率的抽样误差samplingerrorofrate用率的标准误standarderrorofrate度量
第一节 率的抽样误差及可信区间
计数资料的统计学推断
第一节 率的抽样误差与可信区间 第二节 率的统计学推断
一、样本率与总体率比较的u 检验 二、两个样本率比较的u 检验
第三节 卡方检验 一、卡方检验的基本思想 二、四格表专用公式 三、连续性校正公式
四、配对四格表资料的χ2检验 五、行×列(R×C)表资料的χ2检验
料都可以看做四格表资料。例如
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
发病率(%) 14 25 20
14 86 30 90
四格表的一般形式
组别
1 2 合计
阳性
a c a+c
阴性
b d b+d
合计
a+b c+d a+b+c+d
21.3
182.7
6.7
57.3
chi-各sq种u4a.情r7e2形(v2下a11l.3,ue理)18论,12它.与7服实从61际.7自偏由5离71度.的3为)总ν4和.的8即2卡为方卡分方布值。( v (2 1)(2 1) 1
χ2分布(chi-square distribution)
纵高
0.5 0.4 0.3 0.2 0.1 0.0
校正公式:
2 c
( A T 0.5)2, T
(也适合其它行 列表资料)
2 c
(a
( ad bc n / 2)2 n b)(c d)(a c)(b
d)
表 5-2 两零售点猪肉表层沙门氏菌带菌情况检查结果
零售点
沙门氏菌
阳性
阴性
合计
带菌率(%)

2(4.17) 26(23.33)
28
三、连续性校正公式
χ2分布是一连续型分布,而行×列表资料属离 散型分布,对其进行校正称为连续性校正 (correction for continuity),又称Yates校正(Yates' correction)。
⑴当n≥40,而1≤T<5时,用连续性校正公式 ⑵当n<40或T<1时,用Fisher精确检验(Fisher exact test )
四格表资料的χ2检验
什么是四格表资料?凡是两个率或构成比资
料都可以看做四格表资料。举例。
组别 实验组 对照组 合计
发病人数 14 30 44
未 发 病人数 86 90 176
观察例数 100 120 220
发病率(%) 14 25 20
14 86 30 90
一、卡方检验的基本思想
四格表资料的χ2检验 什么是四格表资料?凡是两个率或构成比资
204 28 240 64
2
2 0.05,1
3.84;
P 0.05
下结论:
如果
2
2 0.05,1
3.84;
P 0.05,拒绝H0 ,即1 2
如果
2
2 0.05,1
3.84;
则P 0.05,即不拒绝H0
2(1) ~ u2 =2.19492=4.82(n>40,所有T5时)
四格表资料的专用公式
1.正态近似法; (1)条件:a. n>100(50) b. np与 n(1-p)>5 (2)公式:1)总体率95%可信区间为:P±1.96SP.
2)总体率99%可信区间为:P±2.58SP 2.查表法:
适用于n≤50; P很接近0或100%时,可查百分率的可信 限表,求得百分率可信限
第二节 率的统计学推断
理论频数与自由度的计算:
A是实际频数,T是根据假设检验来确定的, 当H0成立时,计算出的格子中的数。每个格子中的理论 频数计算公式为:TRC = NR × NC /N, NR所在的行合计, NC所在的列合计,代入公式中求x2值。
表5-1 两种疗法的心血管病病死率的比较 2×2表或四格表(fourfold table)
7.14

5(2.33)
9(11.67)
14
35.71
合计
7
35
42
16.67
2 (29 5 26)2 42 5.49 , 1 28 14 7 35
2 c
(
2
9
5 26 42 2)2 28 14 7 35
42
3.62
,
1
因为1<T<5,且n>40时,所以应用连续性校正χ2检验
四、配对四格表资料的χ2检验
Sp
p(1 p) n
0.625 (1 0.625 ) 0.0252 2.52% 368
SP的意义:反映率的抽样误差大小. SP小表示率 的抽样误差小,即样本率的可靠性大.
二、 总体率的可信区间
总体率的可信区间 (confidence interval of rate):根据样本率推算总体率可能所在的范围
0
f
( 2)
1
2( / 2)
2
2
( / 21) e 2 / 2
自由度=1 自由度=2 自由度=3 自由度=6 P=0.05的临界值
3 3.84 6 7.81 9
1122.59 15
18
卡方值
χ2分布规律
自由度一定时,P值越小, x2值越大。 当P 值一定时,自由 度越大, x2越大。
=1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63
合计
病死率(%)
盐酸苯乙双胍 26 (a) 178 (b)
204(a+b)
安慰剂
2 (c)62 (d)64(c+d)合计
28 (a+c.) 240(b+d.) 268(a+b+c+d=n)
12.75 (p1)
3.13 (p2)
10.45 (pc)
2 (26 62 178 2)2 268 4.82 , 1
(a b)(a c)
(a b)(b d)
(c d)(b d)
abcd
abcd
abcd
(ad bc)2 n
(a b)(c d)(a c)(b d)
1 ; (四格表专用公式)
表5-1 两种疗法的心血管病病死率的比较 2×2表或四格表(fourfold table)
疗法
死亡
生存
疗法
死亡
生存
合计
病死率(%)
盐酸苯乙双胍 26 (a) 178 (b)
204(a+b)
安慰剂
2 (c)
62 (d)
64(c+d)
合计
28 (a+c.) 240(b+d.) 268(a+b+c+d=n)
12.75 (p1)
3.13 (p2)
10.45 (pc)
实际频数A (actual frequency) ( a、b、c、d)
其对应的理论频数T( theoretical frequency)为
(H0:π1=π2=π):
T
行(row)合计 列(column)合计 总例数
nR nC n
计算结果为
a的理论频数= (a+b)×pc=(a+b)×[(a+c.)/ n] =nRnC/n =21.3
b的理论频数= (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =nRnC/n =182.7
第三节 卡方检验
χ2检验(Chi-square test)是现代统计学的创始人 之一,英国人K . Pearson(1857-1936)于1900年提 出的一种具有广泛用途的统计方法,可用于两个或 多个率间的比较,计数资料的关联度分析,拟合优 度检验等等。
本章仅限于介绍两个和多个率或构成比比较的χ2 检验。
二、四格表专用公式
为了不计算理论频数T, 可由基本公式推导出,直接由 各格子的实际频数(a、b、c、d)计算卡方值的公式:
基本公式: 2 (A T )2 T
a
(a b)(a abc
c) 2 d
b
(a b)(b d)2 a b c d
d
(c a
d)(b d)2 b c d
P=0.05时, =1, x2 =3.84 =2, x2 =5.99
当自由度取1时, u2= x2
χ2检验的基本公式
2 (A T )2 (A T )2 1
T
T
(R 1)(C 1)
上述基本公式由Pearson提出,因此软 件上常称这种检验为Pearson卡方检验。 下 面将要介绍的其他卡方检验公式都是在此 基础上发展起来的。它不仅适用于四格表 资料,也适用于其它的“行×列表”。
第一节 率的抽样误差与可信区间
一、 率的抽样误差与标准误
样本率(p)和总体率(π)的差异称为率的 抽样误差(sampling error of rate) ,用率的标 准误(standard error of rate)度量。
p
(1 )
n
标准误的计算
如果总体率π未知,用样本率p估计
sp
p(1 p) n
c的理论频数= (c+d)×pc=(c+d)×[(a+c)/ n] =nRnC/n =6.7
d的理论频数= (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =nRnC/n =57.3
2 (A T )2 (A T )2 1 , (R 1)(C 1)
T
T
2 (26 21.3)2 (178 182.7)2 (2 6.7)2 (62 57.3)2
配对设计
对子号
甲剂量
1
死亡
2
死亡


39
生存
乙剂量 死亡 生存
… 生存
表 5 -3
某抗癌新药两种剂量的毒理实验结果
乙剂量
甲剂量
合计
死亡(+) 生存(-)
死亡(+) 6 (a ) 12 (b ) 18
生存(-) 3 (c ) 18 (d ) 21
合计
9
30
39
成组设计
编号 剂量组 结果
1

死亡
2

生存
α=0.05。
当b c 40时, 2 (b c)2 , 1
bc
配对四格表资料的χ2检验 也称McNemar检验(McNemar's test)
b c 40时,需作连续性校正, 2 ( b c 1)2 , 1
bc
本例b c 15 40, 采用连续性校正
2 (12 3 1)2 4.27, 1
二、两个独立样本率比较的u 检验
表5-1 两种疗法的心血管病病死率比较
疗法 盐酸苯乙双胍
安慰剂 合计
死亡
26 (X1) 2 (X2) 28
生存 178 62 240
合计 病死率(%)
204(n1) 64(n2) 268
12.75 (p1) 3.13 (p2) 10.45 (pc)
u 检验的条件:
n1p1 和n1(1- p1)与
相关文档
最新文档