第6章 总体均数和总体率
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
44
4.99
69
4.99
94
5.22
45
5.07
70
5.06
95
5.14
46
4.88
71
4.81
96
5.12
47
4.97
72
4.93
97
4.89
48
4.86
73
4.94
98
4.72
49
4.90
74
4.97
99
5.01
50
4.89
75
5.02
100
均数
5.08 5.16 5.00 4.97 5.01 5.04 4.98 5.13 5.05 4.87 4.96 4.92 4.97 5.20 5.12 5.18 4.96 4.89 4.77 5.22 5.03 4.91 4.86 4.87 4.86
• 又称为Student t分布 (Student’s tdistribution)
t X X ~ t分布, n 1
SX S n
t 分布的图形及特征
f(x)
0.40
0.30
ν ∞(标准正态曲线) ν=5
ν=1
0.20
0.10
0.00
-5.0
-4.0
-3.0
-2.0
-1.0
0.0
1.0
52
5.10
77
5.15
28
5.28
53
4.99
78
4.96
29
5.11
54
5.02
79
5.00
30
4.97
55
5.16
80
4.75
31
5.01
56
5.13
81
4.96
32
4.89
57
5.06
82
5.29
33
4.95
58
5.01
83
5.07
34
5.10
59
4.98
84
4.96
35
5.05
60
4.91
• 由个体变异产生的,随机抽样引起的样本 统计量与总体参数之间的差异称为抽样误 差(sampling error)。
• 抽样造成的样本均数与总体均数间的差异 就称为均数的抽样误差。
• 在抽样研究中,抽样误差是不可避免的, 但抽样误差分布具有一定的规律性。
图3-1 从正态分布总体N(5.0, 0.62)中随机抽样所得样本均数的分布
计算 公式
用途
σ已知或σ未知但 n 较大
X Z 2 (
) n
X
Z
2(
S) n
σ未知:
X
t
2, (
S) n
估计总体均数
正态分布: X Z 2S
偏态分布:PX ~ P100-X
判断观察对象的某项指标正 常与否
第三节 总体率的点估计与 区间估计
一、二项分布
如某实验中小白鼠染毒后死亡概率P为0.8,则生存概率为=1-P=0.2,
因此,二项分布是说明结果只有两种情况的n次实验中发生某种结 果为x次的概率分布。其概率密度为:
•
P(x)=cnxPx(1-P)n-x, x=0,1,...n。:
0.4 P(X)
0.3
二项分布的图形
n =20 =0.5
n =5 =0.3
n =10 =0.3
n =30 =0.3
0.2
0.1
0.0 4 8 12 16 0 2 4
P( X m) 1 P( X m 1)
2
2
t
t ,
t 2,
t
t 2,
单侧:Pt t , 或P t t ,
双侧:P t t 2, P t t 2,
即 P t 2, t t 2, 1
① 在相同自由度时,t 的绝对值越大,P 越小 ② 在相同 P 值时,自由度越大所对应的 t 界
值越小 ③ 在相同 t 值时,双侧概率 P 为单侧概率 P
P( X 1.96 X X 1.96 X ) 1 0.05
在总体中抽样,样本均数所计算的区间有95%可能 包括总体均数
X Z0.025 X X X Z0.025 X
95%
X
2.5%
2.5%
Z 0.025 X
Z0.025 X
X Z 2 X , X Z 2 X
2. 未知但n足够大(n>50)
X ~ N 0,1
X
X 常未知,若用SX X ,这时对样
本均数进行的不是 Z变换而是 t 变换
t X X
SXFra Baidu bibliotek
Sn
统计量 t 不再服从N(0,1)标准正态分布
• 英国统计学家 W. S. Gosset 于1908年以 “Student” 笔名发表 论文,证明统计量 t 服从v = n-1的t分布
85
4.84
36
5.25
61
4.91
86
5.01
37
5.02
62
5.13
87
5.06
38
4.96
63
4.97
88
5.06
39
4.82
64
5.06
89
5.03
40
4.96
65
4.89
90
5.06
41
5.04
66
4.99
91
5.02
42
4.80
67
5.07
92
4.66
43
5.01
68
4.93
93
5.20
图6-5 从N(0, 1)中随机抽样算得的100个95%可信区间(n=10)
可信区间的两个要素
• 可信度:可靠性,即1-α。一般取90%、 95%,可人为控制
• 区间的宽度:区间的大小(区间的长度), 越小越好
• 必须二者兼顾
均数的可信区间与参考值范围的区别
区别点
均数的可信区间
参考值范围
意义 按预先给定的概率,确定 “正常人”的解剖、生理、 的未知参数的可能范围 生化、某项指标的波动范围
P(t /2,
X
SX
t /2, ) 1
P( X t /2, SX X t /2, SX ) 1
X t 2, SX , X t 2, SX
-t/2, v
0
t/2, v
可信区间的涵义
• 从总体中作随机抽样,每个样本可以算得一个可 信区间。如95%可信区间意味着做100次抽样, 算得100个可信区间,平均有95个估计正确。在 实际研究中,一般只进行一次抽样,算得一个可 信区间,对于这个可信区间来说,我们就认为该 区间包含了总体均数 ,把握度为95%。
与样本例数的平方根成反比。
X ~ N
, 2
n X ~ N
,
2 X
X n
• X 越大,样本均数的分布越分散,样本均数
与总体均数的差别越大,抽样误差越大,由样
本均数估计总体均数的可靠性越小。反之, X
越小,样本均数的分布越集中,样本均数与总 体均数的差别越小,抽样误差越小,由样本均 数估计总体均数的可靠性越大。
3、依此类推,对n只小白鼠进行实验,所有可能结果的概率相加得 Pn+cn1P(1-P)n-1+...+cnxPx(1-P)n-x+...+(1-P)x=[P+(1-P)]n 其中n为样 本含量,即事件发生总数,x为某事件出现次数,cnxPx(1-P)n-x为二项 式通式,cnx=n!/x!(n-x)!, P为总体率。
说,如果n或n(1-)大于5时,常可用正态
近似原理处理二项分布问题
二项分布的性质 :累积概率
(1)二项分布的概率之和等于1
n CnX X (1 )nX 1 n 1
X 0
(2)单侧累积概率
至多有m例阳性的概率(下侧累积概率)
m
P( X m)
CnX X (1 )n X
X 0
至少有m例阳性的概率(上侧累积概率)
中心极限定理
• 从正态总体 N (, 2) 中,随机抽取例数为
n 的样本,样本均数也服从正态分布;即 使从偏态总体随机抽样,当 n 足够大时(n ≥ 50),样本均数近似正态分布。
• 从均数为,标准差为 的正态或偏态总体
中,抽取例数为 n 的样本,样本均数的总
体均数也为 ,标准差与原标准差成正比,
0246 X
4 8 12 16
• 当=0.5时,分布对称;当 0.5,分布呈 偏态;当<0.5时分布呈正偏态;当>0.5时
分布呈负偏态;特别是当n值不是很大时,
偏离0.5愈远,分布愈偏
• 随着n的增大,二项分布逐渐逼近正态分布。
如 =0.30,n=5和n=10时,图形呈偏态,
当n=30时,图形已接近正态分布。一般地
的两倍
④ 时,t界值即为Z界值
第二节 总体均数的点估计与 区间估计
• 点估计(point estimation):将样本统计量 直接作为总体参数的估计值
• 区间估计(interval estimation):按事先给 定的概率 ,估计包含未知总体参数的一个 可能范围
• 区间估计的实质
– 假设某个总体的均数为,需要找到两个
• X 的大小与 成正比,与 n 成反比。当 固定不变时,样本含量n增大, X 减小。
因此,在实际工作中,可通过适当增加样 本含量来减小抽样误差。
• 常未知,用 S 估计,因此均数标准误的估
计值为
SX S n
t 分布的演化
X ~ N , 2 X ~ N 0,1
X ~ N
,
2 X
X Z 2SX , X Z 2SX
X Z 2SX X 1.96SX
例6-3中,因n=120 ,x 3.86mmol / L, s 1.73mmol / ,L 试求该地正常成年男性 血清胆固醇平均水平的95%可信区间。
x
1.96sx
3.86 1.96
1.73 120
3.86 0.31
量A和B,使得在一个比较高的可信度下
(如95%),区间(A, B)能包含 。即
P(A< <B)=0.95
• 可信区间的定义
– 按一定的概率或可信度(1-α)估计包含未知总体 参数的可能范围,该范围通常称为参数的可信 区间或者置信区间(confidence interval,CI),预 先给定的概率(1-α)称为可信度或者置信度 (confidence level),常取95%或99%
2.0
3.0
4.0
5.0
t
t 分布的特征为: ① 以0为中心,左右对称的单峰分布
② 越小,t值越分散,峰越矮,尾越高 ③增大,t分布逐渐逼近Z分布, 时,
t分布即为Z分布
t 界值表
• 横标目:自由度
• 纵标目:概率 P (曲线下面积)
• 表中数字:自由度为 ,概率P 为时,
所对应的 t 界值,记为t,
1、对一只小白鼠进行实验的结果为:死(概率为P)或生(概率为1-P)
2、对二只小白鼠(甲乙)进行实验的结果为:甲乙均死(概率为P2)、 甲死乙生[概率为P(1-P)]、乙死甲生[概率为(1-P)P]或甲乙均生[概率 为(1-P)2],概率相加得P2+P(1-P)+(1-P)P+(1-P)2=[P+(1-P)]2
即(3.55,4.17)mmol/L
• 例6-1 从某地随机抽取120名30岁-40岁正常 男性,得其血清总胆固醇水平的均数为 4.95mmol/L,标准差为0.64mmol/L,试估计 该地30岁-40岁正常男性血清总胆固醇平均 水平的95%可信区间。
• 因n=120,属于未知但n足够大,又均数为
• 样本均数大部分分布在总体均数5.0的左右, 中间多、两边少,左右基本对称,服从正 态分布,并且样本均数的变异范围比原变 量的变异范围要小很多。
• 样本均数的标准差称为均数的标准误,简
称标准误,用符号 X 表示。均数的标准误
说明各样本均数X 围绕总体均数 的离散
程度,可用来反映样本均数的抽样误差大 小。
样本号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
表 6-1 随机抽取的 100 份样本血清总胆固醇的计算结果 (n=30)
均数
样本号 均数
样本号 均数
样本号
5.01
26
5.18
51
4.88
76
4.99
27
4.90
第6章 总体均数和总体率的估计
第一节 均数抽样误差与t分布
• 欲了解总体的特征,最直接的方法是对总 体中的每个观察单位进行测量,通过整理 分析得到总体参数,但这在医学研究实际 中往往是不可能实现的。
• 通常应用抽样研究,通过样本指标来了解 总体特征。
• 抽样研究所得样本均数会不会恰好等于未 知的总体均数呢?
• 如果固定样本含量n从同一总体中进行多次 抽样,所得样本均数又会如何呢?
• 假设已知某地30岁-40岁正常男性血清总胆 固醇的均值为5.0mmol/L,标准差为 0.6mmol/L。现从该总体中进行随机抽样, 每次抽取30名正常男子,并测得他们的血 清总胆固醇水平,最终共抽取100份样本, 并计算出每份样本的均数。
– 可信区间(CL, CU )为开区间,CL、CU 称可信限
总体均数可信区间的计算
1. 当σ已知
X 在总体中抽样,样本均数的Z变换值有95%
Z ~ N 0,1 可能性落在(-1.96,1.96)之间
X
P(Z0.05 2 Z Z0.05 2 ) 1 0.05
P(1.96 X 1.96) 1 0.05 X
4.95mmol/L,标准差为0.64mmol/L ,故该
地30岁-40岁正常男性血清总胆固醇平均水
平的95%可信区间为
X
1.96S X
4.95 1.96
0.64 120
4.95 0.11
即(4.84,5.06)mmol/L
3. 当σ未知n 较小
P(t /2, t t /2, ) 1