(卫生统计学)第四章 常用概率分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.5%
95%
μ +1σ有拐点
2.5%
4. Z变换
-1.96
不同范围的概率值
μ ±σ μ ±1σ μ ±1.28σ μ ±1.96σ μ ±2.58σ
z x一般
+1.96
概率(%) 68.27 80.00 95.00 99.00
二、 标准正态分布 standard normal distribution
则X= X1+X2+…+Xk 服从λ = λ1+ λ2+…+ λk 的Poisson分布。
四、二项分布的Poisson分布近似 若X~B( n, π ),当n很大且π很小时,可取λ≈nπ ,理论上可证明:
B (x ;n ,) P (n )
五、Poisson分布的应用
1. 概率估计 例4-7 如果某地新生儿先天性心脏病的发病率为8‰ ,那么该地120名新 生儿中有4人患先天性心脏病的概率有多大?5人概率? 设x为患病人数,x~B(120, 8‰ ) , 取λ=nπ=120×0.008=0.96
第二节 Poisson分布的概念与特征
一、Poisson分布概念与特征
若某一随机变量X的取值为0,1,2,…,且X=k 的概率为:
P(X k) k e
k!
记作 X~P( λ )
其中 自然数e≈2.7182; λ 是大于0的常数,称X服从以λ 为参数的Poisson分布。
Poisson分布主要用于描述在单位时间(空间)内稀有事件的发生数。例如:放 射性物质在单位时间内的放射次数、单位容积内充分摇匀的水中的细菌数、染色 体异变数等。
百分位数法
例4-13
282名正常人尿汞值(g/L)测量结果
尿汞值 0~ 8.0~
16.0~ 24.0~ 32.0~ 40~ 48.0~ 56.0~ 64.0~72.0
人数f 45 64 96 38 20 11 5 2 1
累计频数∑f 45 109 205 243 263 274 279 281 282
0 012345
n=6,π=0.3
0.25 P(x)
0.2
0.15
0.1
0.05
0 0 1 2 3 4 5 6 7 8 9 10 11 12
n=20,π=0.3
二项分布的均数与方差
若X~B(x, n, π),则
X的均数 x n X的方差 x2 n(1) X的标准差x n(1)
在例4-3中,n=3,π =0.6,则3人中有效人数X的总体均数
总体均数x 30.61.( 8 人) 总体标准差 x 30.60.4 0.8( 5 人) 总体方差x2 0.7225
样本率的误差估计—频率的标准误
用样本率p估计总体率π存在抽样误差,样本率p的总体均数和标准差为:
p
1nx
1(n)
n
p
x
n
(1)
n
当n 较大时,对随机抽取的一个样本而言,95%的可能样本与总体率间的误
第四章 常用概率分布
Common Probability Distribution
要求: 1.熟悉三个分布的(图形与数字)特征和性质 2.掌握三个分布的概率计算,尤其是正态分布 3.了解三个分布之间的关系 4.掌握用正态分布法估计医学参考值范围
第一节 二项分布
在医学卫生领域的许多试验(或观察)中,人们感兴趣的是某事 件是否发生。例如:用白鼠作某药物的毒性试验,感兴趣的是白鼠是 否死亡;某新药、新疗法的临床试验观察患者是否治愈;观察某项指 标的化验结果是否呈阳性等。
pP(X13)01P(X13)01(13012.302)1(1.46)7.21% 4.79
pP(120X12)8(12812.302)(12012.302)(1.04)(0.63)58.65%
4.79
4.79
pP(Z1 XZ2)12P(XZ)0.80Z1.28
即 x12.3021.28 11.69x12.92 4.79
μ =121.95 不同范围的概率值
身高范围 cm
理论频率 实际 实际频率
%
频数
%
μ ±σ
121.95±4.72
117.23~126.67
68.27
75
68.18
μ ±1.28σ
121.95±1.28(4.72) 115.91~127.99
80.00
95
79.17
μ ±1.96σ
121.95±1.96(4.72) 112.70~131.20
某地正常成人心率(次/分)的频率分布
频数 1 5 12 13 26 31
组段 75~ 80~ 85~ 90~ 95~ 100~105
频数 24 15 9 7 5 2
心率频数分布
35
30
25
20
人数
15
10
5
0
45
50
55
60
65
70
75
80
85
90
95 100~105
正态曲线
例4-10 某地1986年120名8岁男孩身高频数图
0 0 1 2 3 4 5 6 7 8 9 10
n=10,π=0.5
二项分布图 (2)
P(x) 0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
n=3,π=0.3
P(x) 0.35 0.3 0.25 0.2 0.15 0.1 0.05
0 01234567
n=10,π=0.3
0.35 P(x) 0.3 0.25 0.2 0.15 0.1 0.05
Poisson 分布图
=3 0.2 P (X)
=5
0.1
=10
=20
0.0 0 4 8 0 4 8 12
4 8 12 16 20 X
8 12 16 20 24 28 32
二、Poisson分布的均数与方差 Poisson分布的均数与方差都等于λ,因此参数λ的统计意义就是平均值。
三、Poisson分布的可加性 若X1,X2,…Xk 相互独立,且分别服从以λ1, λ2,…, λk 为参数的Poisson分布,
例如
某地20年间共出生肢短畸形儿10名,平均每年0.5名。分析每年出生畸形 儿数的概率分布。 分析:出生畸形儿是个稀有事件,设x为每年出生畸形儿数,=0.5
则P(Xk)0.5k e0.5 k!
每年出生肢短畸形儿概率分布
X=k
0
1
2
3
4
≥5
P
0.607
0.303
0.076
0.013
0.002
0.000
P(x4)0.96 4e0.960.014 4!
递推公式: P(X 1) P(X)
X 1
P5 P41 P4 0.960.0026
41
2. 单侧累计概率
例4-8 在例4-7中, (1)至多有4人发病的概率有多大? (2)至少有5人发病的概率有多大?
4
解: 至多 4人 有发病的 P( 概 x4率 )
下限 x u 0 .0: /5 2 S 1.1 4 1 7 .9 6 1.2 0 9.4 7 ( g 1 /L ) 上限 x u 0 .0: /5 2 S 1.1 4 1 7 .9 6 1.2 0 1.3 3 ( 7 g 9 /L ) 则当地女性血红蛋白数的95%的医学参考值范围是:
( 13 .3, 799.4 7) 1g/L
f(x) 1 e(x22)2
2
x
记作 X~N( μ, σ2)
2.两个参数的意义 ⑴几何意义:μ 是位置参数;σ 是形状参数(σ >0). ⑵统计意义: μ 是总体平均数;σ 是总体标准差.
实际应用中 X~N( x , s2 )
表4-4
350 300 250 200 150 100
50 0
109 111 113 115 117 119 121 123 125 127 129 131 133 135 137 139 141 143
2. 医学参考值范围
在正常人中,确定大多数人某项生理、生化、解剖等 指标的波动范围(normal range)。
正态近似法
x us
通常 0.05 双侧时, u1.96 单侧时, u1.64
例4-12 如调查某地120名健康女性血红蛋白,估计血红蛋白95%的医学参考值范围。 已知:
x 1.4 1 g /L 7 , s 1.2 0 g /L
设x为感染钩虫的 n人 15,数 0, 0.13,根据二项分布
P(x1) 0C115000.13100.871400.00550.5%
递推公式 P(X :1)nXX11P(X)
P11P10115010 0.13 P100.0105
101 10.13
2.单侧累计概率
例4-6 在例4-5中,至多有2名感染钩虫的概率有多大?至少有2名感染 的概率有多大?至少有20名感染的概率有多大?
差不超过1.96标准差,即: p1.96p
实际工作中,
p sp
p(1p) n
例4-4 已知某地钩虫感染率为6.7%(即=0.067),如果随机抽查该地 150人,记样本钩虫感染率为p,求p的抽样误差。
psp
0.06(17 0.06) 72.0% 150
二、 二项分布的统计应用
1.概率估计
例4-5 如果某地钩虫感染率为13%,随机抽查该地150人,其中有10人感 染钩虫的概率有多大?有11人感染的概率?
0,1时的分布称为标准正态分布
标准正态分布界值表值
三、 正态分布的应用
1.估计频数分布 2.制定医学参考值范围 3.质量控制
1. 估计频数分布
例4-11-1 出生体重低于2500克为低体重。若由某项研究得某地婴儿体重均数为3200 克,标准差为350克,估计该地当年低体重儿所占的比例。
解:设 X表示婴儿体重(克), 因为X~N(3200,3502)
3
e66x
0.062
x0
x0 x!
多于 1个的概P率 (x2) 1P(x1) 0.983
第三节 正态分布
( normal distribution )
一、 正态分布的概念和特征
在医学资料中有许多变量的频数分布具有对称性。如观察某地150名正常成人心 率的规律。如表4-3:
表4-3
组段 45~ 50~ 55~ 60~ 65~ 70~
350 300 250 200
人数
150 100
50 0
109 111 113 115 117 119 121 123 125 127 129 131 133 135 137 139 141 143
不同参数µ和σ下的正态分布曲线
正态分布函数
1.Gauss函数 (Gauss, 1777~1855 德国人)
4
P(x)
e0.960.96x 0.997
x0
x0 x!
至少 5人 有发病的 P( 概 x5率 ) 1P( x4) 10.9970.003
例4-9
实验室显示某100cm2的培养皿平均菌落数为6个,试估计 该培养皿菌落数小于3个的概率和大于1个的概率。
3
解: 少于 3个的概P率 (x3)
P(x)
用A表示感兴趣的事件,则P(A)为所感兴趣事件发生的概率。
Bernoulli 试验序列
满足以下三个条件的n 次试验构成Bernoulli试验序列 1.每次试验只有两个互斥的结果之一(A或非A) 2.每次试验的条件不变(即每次试验有P(A)=π ) 3.各次试验独立
4 1
例4-1 用针灸治疗头痛,假定结果不是有效就是无效,每一 例有效的概率为π。某医生用此法治疗头痛患者5例,3例有效 的概率是多少?
本例为Bernoulli试验序列 ,5 次试验中,事件“有效”出现的次数 X=3的概率分布为:
P (X 3 ) C 5 33 1 5 3
二项分布图 (1)
P(x) 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05
0 012345
n=3,π=0.5
0.3 P(x) 0.25 0.2 0.15 0.1 0.05
p P ( X 2) 5 ( 2 0 5 3 0) 0 2 0 0 0 ( 2 ) 0 0 . 0 2 2 . 2 % 2 8 8 350
百度文库
例4-11 -2
某地1986年120名8岁男孩身高均数 x12.302cm, S=4.79
(1)试估计身高在130cm以上的百分比; (2)身高在120cm~128cm的百分比; (3)该地80%的男孩身高集中在哪个范围? 解:
95.00 104
94.55
μ ±2.58σ
121.95±2.58(4.72) 109.77~134.13
99.00 109
99.10
1 12 .66 7
P
e(x2 14.7 2 .922 )1 5 2d x6.2 8% 7
11 .27 324.72
3.正态曲线下面积(概率)的计算
μ–σ有拐点
2
解: 至多2有 名感染的P概 (x率 2) C1x500.13x0.87150x 2.31107 x0 150 至少2有 名感染的P概 (x率 2) C1x500.13x0.87150x 1P(0)P(1)1 x2 150 至少2有 0名感染的P概 (x率 20) C1x500.13x0.87150x 0.4897 x2 0
95%
μ +1σ有拐点
2.5%
4. Z变换
-1.96
不同范围的概率值
μ ±σ μ ±1σ μ ±1.28σ μ ±1.96σ μ ±2.58σ
z x一般
+1.96
概率(%) 68.27 80.00 95.00 99.00
二、 标准正态分布 standard normal distribution
则X= X1+X2+…+Xk 服从λ = λ1+ λ2+…+ λk 的Poisson分布。
四、二项分布的Poisson分布近似 若X~B( n, π ),当n很大且π很小时,可取λ≈nπ ,理论上可证明:
B (x ;n ,) P (n )
五、Poisson分布的应用
1. 概率估计 例4-7 如果某地新生儿先天性心脏病的发病率为8‰ ,那么该地120名新 生儿中有4人患先天性心脏病的概率有多大?5人概率? 设x为患病人数,x~B(120, 8‰ ) , 取λ=nπ=120×0.008=0.96
第二节 Poisson分布的概念与特征
一、Poisson分布概念与特征
若某一随机变量X的取值为0,1,2,…,且X=k 的概率为:
P(X k) k e
k!
记作 X~P( λ )
其中 自然数e≈2.7182; λ 是大于0的常数,称X服从以λ 为参数的Poisson分布。
Poisson分布主要用于描述在单位时间(空间)内稀有事件的发生数。例如:放 射性物质在单位时间内的放射次数、单位容积内充分摇匀的水中的细菌数、染色 体异变数等。
百分位数法
例4-13
282名正常人尿汞值(g/L)测量结果
尿汞值 0~ 8.0~
16.0~ 24.0~ 32.0~ 40~ 48.0~ 56.0~ 64.0~72.0
人数f 45 64 96 38 20 11 5 2 1
累计频数∑f 45 109 205 243 263 274 279 281 282
0 012345
n=6,π=0.3
0.25 P(x)
0.2
0.15
0.1
0.05
0 0 1 2 3 4 5 6 7 8 9 10 11 12
n=20,π=0.3
二项分布的均数与方差
若X~B(x, n, π),则
X的均数 x n X的方差 x2 n(1) X的标准差x n(1)
在例4-3中,n=3,π =0.6,则3人中有效人数X的总体均数
总体均数x 30.61.( 8 人) 总体标准差 x 30.60.4 0.8( 5 人) 总体方差x2 0.7225
样本率的误差估计—频率的标准误
用样本率p估计总体率π存在抽样误差,样本率p的总体均数和标准差为:
p
1nx
1(n)
n
p
x
n
(1)
n
当n 较大时,对随机抽取的一个样本而言,95%的可能样本与总体率间的误
第四章 常用概率分布
Common Probability Distribution
要求: 1.熟悉三个分布的(图形与数字)特征和性质 2.掌握三个分布的概率计算,尤其是正态分布 3.了解三个分布之间的关系 4.掌握用正态分布法估计医学参考值范围
第一节 二项分布
在医学卫生领域的许多试验(或观察)中,人们感兴趣的是某事 件是否发生。例如:用白鼠作某药物的毒性试验,感兴趣的是白鼠是 否死亡;某新药、新疗法的临床试验观察患者是否治愈;观察某项指 标的化验结果是否呈阳性等。
pP(X13)01P(X13)01(13012.302)1(1.46)7.21% 4.79
pP(120X12)8(12812.302)(12012.302)(1.04)(0.63)58.65%
4.79
4.79
pP(Z1 XZ2)12P(XZ)0.80Z1.28
即 x12.3021.28 11.69x12.92 4.79
μ =121.95 不同范围的概率值
身高范围 cm
理论频率 实际 实际频率
%
频数
%
μ ±σ
121.95±4.72
117.23~126.67
68.27
75
68.18
μ ±1.28σ
121.95±1.28(4.72) 115.91~127.99
80.00
95
79.17
μ ±1.96σ
121.95±1.96(4.72) 112.70~131.20
某地正常成人心率(次/分)的频率分布
频数 1 5 12 13 26 31
组段 75~ 80~ 85~ 90~ 95~ 100~105
频数 24 15 9 7 5 2
心率频数分布
35
30
25
20
人数
15
10
5
0
45
50
55
60
65
70
75
80
85
90
95 100~105
正态曲线
例4-10 某地1986年120名8岁男孩身高频数图
0 0 1 2 3 4 5 6 7 8 9 10
n=10,π=0.5
二项分布图 (2)
P(x) 0.5
0.4
0.3
0.2
0.1
0
0
1
2
3
n=3,π=0.3
P(x) 0.35 0.3 0.25 0.2 0.15 0.1 0.05
0 01234567
n=10,π=0.3
0.35 P(x) 0.3 0.25 0.2 0.15 0.1 0.05
Poisson 分布图
=3 0.2 P (X)
=5
0.1
=10
=20
0.0 0 4 8 0 4 8 12
4 8 12 16 20 X
8 12 16 20 24 28 32
二、Poisson分布的均数与方差 Poisson分布的均数与方差都等于λ,因此参数λ的统计意义就是平均值。
三、Poisson分布的可加性 若X1,X2,…Xk 相互独立,且分别服从以λ1, λ2,…, λk 为参数的Poisson分布,
例如
某地20年间共出生肢短畸形儿10名,平均每年0.5名。分析每年出生畸形 儿数的概率分布。 分析:出生畸形儿是个稀有事件,设x为每年出生畸形儿数,=0.5
则P(Xk)0.5k e0.5 k!
每年出生肢短畸形儿概率分布
X=k
0
1
2
3
4
≥5
P
0.607
0.303
0.076
0.013
0.002
0.000
P(x4)0.96 4e0.960.014 4!
递推公式: P(X 1) P(X)
X 1
P5 P41 P4 0.960.0026
41
2. 单侧累计概率
例4-8 在例4-7中, (1)至多有4人发病的概率有多大? (2)至少有5人发病的概率有多大?
4
解: 至多 4人 有发病的 P( 概 x4率 )
下限 x u 0 .0: /5 2 S 1.1 4 1 7 .9 6 1.2 0 9.4 7 ( g 1 /L ) 上限 x u 0 .0: /5 2 S 1.1 4 1 7 .9 6 1.2 0 1.3 3 ( 7 g 9 /L ) 则当地女性血红蛋白数的95%的医学参考值范围是:
( 13 .3, 799.4 7) 1g/L
f(x) 1 e(x22)2
2
x
记作 X~N( μ, σ2)
2.两个参数的意义 ⑴几何意义:μ 是位置参数;σ 是形状参数(σ >0). ⑵统计意义: μ 是总体平均数;σ 是总体标准差.
实际应用中 X~N( x , s2 )
表4-4
350 300 250 200 150 100
50 0
109 111 113 115 117 119 121 123 125 127 129 131 133 135 137 139 141 143
2. 医学参考值范围
在正常人中,确定大多数人某项生理、生化、解剖等 指标的波动范围(normal range)。
正态近似法
x us
通常 0.05 双侧时, u1.96 单侧时, u1.64
例4-12 如调查某地120名健康女性血红蛋白,估计血红蛋白95%的医学参考值范围。 已知:
x 1.4 1 g /L 7 , s 1.2 0 g /L
设x为感染钩虫的 n人 15,数 0, 0.13,根据二项分布
P(x1) 0C115000.13100.871400.00550.5%
递推公式 P(X :1)nXX11P(X)
P11P10115010 0.13 P100.0105
101 10.13
2.单侧累计概率
例4-6 在例4-5中,至多有2名感染钩虫的概率有多大?至少有2名感染 的概率有多大?至少有20名感染的概率有多大?
差不超过1.96标准差,即: p1.96p
实际工作中,
p sp
p(1p) n
例4-4 已知某地钩虫感染率为6.7%(即=0.067),如果随机抽查该地 150人,记样本钩虫感染率为p,求p的抽样误差。
psp
0.06(17 0.06) 72.0% 150
二、 二项分布的统计应用
1.概率估计
例4-5 如果某地钩虫感染率为13%,随机抽查该地150人,其中有10人感 染钩虫的概率有多大?有11人感染的概率?
0,1时的分布称为标准正态分布
标准正态分布界值表值
三、 正态分布的应用
1.估计频数分布 2.制定医学参考值范围 3.质量控制
1. 估计频数分布
例4-11-1 出生体重低于2500克为低体重。若由某项研究得某地婴儿体重均数为3200 克,标准差为350克,估计该地当年低体重儿所占的比例。
解:设 X表示婴儿体重(克), 因为X~N(3200,3502)
3
e66x
0.062
x0
x0 x!
多于 1个的概P率 (x2) 1P(x1) 0.983
第三节 正态分布
( normal distribution )
一、 正态分布的概念和特征
在医学资料中有许多变量的频数分布具有对称性。如观察某地150名正常成人心 率的规律。如表4-3:
表4-3
组段 45~ 50~ 55~ 60~ 65~ 70~
350 300 250 200
人数
150 100
50 0
109 111 113 115 117 119 121 123 125 127 129 131 133 135 137 139 141 143
不同参数µ和σ下的正态分布曲线
正态分布函数
1.Gauss函数 (Gauss, 1777~1855 德国人)
4
P(x)
e0.960.96x 0.997
x0
x0 x!
至少 5人 有发病的 P( 概 x5率 ) 1P( x4) 10.9970.003
例4-9
实验室显示某100cm2的培养皿平均菌落数为6个,试估计 该培养皿菌落数小于3个的概率和大于1个的概率。
3
解: 少于 3个的概P率 (x3)
P(x)
用A表示感兴趣的事件,则P(A)为所感兴趣事件发生的概率。
Bernoulli 试验序列
满足以下三个条件的n 次试验构成Bernoulli试验序列 1.每次试验只有两个互斥的结果之一(A或非A) 2.每次试验的条件不变(即每次试验有P(A)=π ) 3.各次试验独立
4 1
例4-1 用针灸治疗头痛,假定结果不是有效就是无效,每一 例有效的概率为π。某医生用此法治疗头痛患者5例,3例有效 的概率是多少?
本例为Bernoulli试验序列 ,5 次试验中,事件“有效”出现的次数 X=3的概率分布为:
P (X 3 ) C 5 33 1 5 3
二项分布图 (1)
P(x) 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05
0 012345
n=3,π=0.5
0.3 P(x) 0.25 0.2 0.15 0.1 0.05
p P ( X 2) 5 ( 2 0 5 3 0) 0 2 0 0 0 ( 2 ) 0 0 . 0 2 2 . 2 % 2 8 8 350
百度文库
例4-11 -2
某地1986年120名8岁男孩身高均数 x12.302cm, S=4.79
(1)试估计身高在130cm以上的百分比; (2)身高在120cm~128cm的百分比; (3)该地80%的男孩身高集中在哪个范围? 解:
95.00 104
94.55
μ ±2.58σ
121.95±2.58(4.72) 109.77~134.13
99.00 109
99.10
1 12 .66 7
P
e(x2 14.7 2 .922 )1 5 2d x6.2 8% 7
11 .27 324.72
3.正态曲线下面积(概率)的计算
μ–σ有拐点
2
解: 至多2有 名感染的P概 (x率 2) C1x500.13x0.87150x 2.31107 x0 150 至少2有 名感染的P概 (x率 2) C1x500.13x0.87150x 1P(0)P(1)1 x2 150 至少2有 0名感染的P概 (x率 20) C1x500.13x0.87150x 0.4897 x2 0