第四章 常概率分布

合集下载

4.5 正态分布的应用

4.5 正态分布的应用

第四章 常用概率分布五、正态分布的应用正态分布的应用1. 确定医学参考值范围n参考值范围(reference range):指特定的“正常”人群的解 剖、生理、生化指标及组织代谢产物含量等数据中大多数 个体的取值所在的范围。

正态分布的应用 n制定参考值范围的步骤:1. 选择足够数量的正常人作为调查对象。

2. 样本含量足够大。

3. 确定取单侧还是取双侧正常值范围。

4. 选择适当的百分界限。

5. 选择适当的计算方法。

n估计医学参考值范围的方法:1. 正态近似法:适用于正态分布或近似正态分布的资料。

2. 百分位数法:适用于偏态分布资料。

过高异常 过高异常过低异常 过低异常例1 某地调查120名健康女性血红蛋白,直方图显示,其分 布近似于正态分布,得均数为117.4g/L ,标准差为10.2g/L , 试估计该地正常女性血红蛋白的95%医学参考值范围。

分析:正常人的血红蛋白过高过低均为异常,要制定双侧正 常值范围。

该指标的95%医学参考值范围为97.41~137.39(g/L )1.96117.4 1.9610.297.41~137.39X S ±=±´=例 1­A 某年某市调查了200例正常成人血铅含量(μg/100g) 如下,试估计该市成人血铅含量的95%医学参考值范围。

分析:血铅的分布为偏峰分布,且血铅含量只以 过高为异常,要用百分位数法制定单侧上限。

( ) ( ) 95 5.%3820095%18938.7/100 7L x iP L n x f g gf m =+-å=+´-=正态分布的应用2. 质量控制图n控制图基本原理:如果某一波动仅仅由个体差异或随机测 量误差所致,那么观察结果服从正态分布。

2. 质量控制图控制图共有7条水平线,中心线位于总体均数μ处,警戒限位于处,控制限位于 处,此外还有2条位于 处。

如果总体均数和总体标准差未知,也可用样本估计值代 替,这时,7条水平线分别位于 、 、 和 处。

研究生医学统计学课后题答案

研究生医学统计学课后题答案

选择题1. C 中位数适用于偏态分布资料、分布不明资料、开口资料(分布末端无确定值资料)、有极端值的资料。

2. A3. D 变量X a +→均数'X X a =+、方差2S 和标准差S 不变、变异系数CV 变小。

4. B5. E 变异系数主要用于比较度量衡单位不同或均数相差悬殊资料的变异程度。

6. E 100%SCV X=⨯ 7. C8. D 率的标准化是为了在比较两个不同人群的患病率、发病率、死亡率等资料时,消除其内部构成不同而不能直接比较的所产生的影响。

9. C 直条图:适用于分类资料各组之间指的比较。

10. C 线图:适用于描述两个计量资料之间的关系,即描述一个连续性变量(因变量)是如何随另一个连续性变量(自变量)的变化而变化。

11. A 半对数线图:适用于计量资料,用来比较事物之间相对的变化速度。

12. D 计算题1.素食前、素食后、素食前后胆固醇的差值的均数、中位数、方差、标准差素食前后胆固醇的箱图均数 中位数标准差 方差选择题2. D 在区间 2.58μσ±上,正态曲线下的面积为99.00%。

3. B 双侧95% 1.96μσ±4. D X 的总体标准差σ=5. B 正态曲线在X μσ=±处有拐点。

6. E7. E8. C σ离散度参数,决定着正态曲线的形状,若μ恒定,则σ越大,曲线越平坦;σ越小,曲线越陡峭。

9. D 对数正态分布lg -1 指标过大为异常,仅有上限的单侧医学参考值范围。

10. C选择题 1. B X S = 当样本含量n 增大时,X S 减小。

2. D3. C 通过增加样本含量n 来减小均数的标准误,从而降低抽样。

4. A 相对危险度(RR )指暴露人群的发病率与非暴露人群的发病率。

计算题1. 该地正常人和病毒性肝炎患者血清转铁蛋白总体均数的95%可信区间 n=10,σ未知,()2,2,,vv X X X t S X t S αα-+正常人 X = 2.732 2,v t α= 2.262X S = 0.03405 →(2.66,2.81)g/L病毒性肝炎患者 X = 2.324 2,v t α= 2.262X S = 0.03922 →(2.24,2.41)g/L该地正常人和病毒性肝炎患者血清转铁蛋白总体均数之差的95%可信区间()()()1212121212122,22,2,n n n n X X X X X X t S X X t S αα+-+---⎡⎤⎡⎤---+⎣⎦⎣⎦12XX S -= ()()221122212112c n S n S S n n -+-=+-= 0.0135()122,2n n t α+-=2.101 → (0.30,0.52)g/L2. 肾移植巨细胞感染率的95%可信区间 n=43 ≤50查表法,n=43,X=19 → (29%,60%)3. 该产院阴道分娩与剖宫产产后出血率之差的95%可信区间 5np >且()15n p -> [][]()1212122122,p p p p p p zSp p zS αα-----+12p p S -=(0.0718±1.96×0.0353)→ (0.26%,14.1%)选择题 1. C2. D Ⅰ型错误(α) Ⅱ型错误(β) α越大,β越小; α越小,β越大。

第四章_常用概率分布(第7版)

第四章_常用概率分布(第7版)
x2
150
3) P X 20
x 20
P( X x ) 1 P X x 0.4880
x 0
150
19
Poisson分布
1)Poisson分布的概念
Poisson分布可以看作是发生的概率(或未发生的概
率1-)很小,而观察例数n很大时的二项分布。除二项

100! 99 0.4 5 1 0.4 6.48 10 16 5!95! 100! 100 40 60 40 P(X 40) C 100 π 40 1 π 0.4 40 1 0.4 0.0812 40!60! 100! 100 80 20 80 P(X 80) C 100 π 80 1 π 0.4 80 1 0.4 2.86 10 16 80!20!
π 1 π 0.13 0.87 0.027 n 150
۩二项分布的的应用
累积概率计算
分三种情况:P(X≤x1); P(X≥x2); P(x1≤X≤x2)
若X~B(n,),上述三种累积概率的计算公式分别为:
k k P X x1 P X k C n 1 k 0 k 0 x1 x1 n k
100 5
二项分布的特征
we'll keep the fixed at 0.5, and vary the sample size n:
Cited from /boost_doc/libs/math/…/dists/binomial_dist.html
Poisson分布的概率函数图举例:
P(x) 0.4 0.3 0.2 0.1 0 0 2 4 6 8 10 12 14 16 18 20 22 x λ =1

(卫生统计学)第四章 常用概率分布

(卫生统计学)第四章 常用概率分布

第二节 Poisson分布的概念与特征
一、Poisson分布概念与特征
若某一随机变量X的取值为0,1,2,…,且X=k 的概率为:
P(X k) k e
k!
记作 X~P( λ )
其中 自然数e≈2.7182; λ 是大于0的常数,称X服从以λ 为参数的Poisson分布。
Poisson分布主要用于描述在单位时间(空间)内稀有事件的发生数。例如:放 射性物质在单位时间内的放射次数、单位容积内充分摇匀的水中的细菌数、染色 体异变数等。
350 300 250 200
人数
150 100
50 0
109 111 113 115 117 119 121 123 125 127 129 131 133 135 137 139 141 143
不同参数µ和σ下的正态分布曲线
正态分布函数
1.Gauss函数 (Gauss, 1777~1855 德国人)
某地正常成人心率(次/分)的频率分布
频数 1 5 12 13 26 31
组段 75~ 80~ 85~ 90~ 95~ 100~105
频数 24 15 9 7 5 2
心率频数分布
35
30
25
20
人数
15
10
5
0
45
50
55
60
65
70
75
80
85
90
95 100~105
正态曲线
例4-10 某地1986年120名8岁男孩身高频数图
百分位数法
例4-13
282名正常人尿汞值(g/L)测量结果
尿汞值 0~ 8.0~
16.0~ 24.0~ 32.0~ 40~ 48.0~ 56.0~ 64.0~72.0

考试练习题常用概率分布教学提纲

考试练习题常用概率分布教学提纲

考试练习题常⽤概率分布教学提纲考试练习题常⽤概率分布第四章选择题:1.⼆项分布的概率分布图在条件下为对称图形。

A .n > 50B .π=0.5C .n π=1D .π=1E .n π> 52.满⾜时,⼆项分布B (n,π)近似正态分布。

A .n π和n (1-π)均⼤于等于5B .n π或n (1-π)⼤于等于5C .n π⾜够⼤D .n > 50E .π⾜够⼤3. 的均数等于⽅差。

A .正态分布B .⼆项分布C .对称分布D .Poisson 分布E .以上均不对4.标准正态典线下,中间95%的⾯积所对应的横轴范围是。

A .-∞到+1.96B .-1.96到+1.96C .-∞到+2.58D .-2.58到+2.58E .-1.64到+1.645.服从⼆项分布的随机变量的总体均数为。

A .n (1-π)B .(n -1)πC .n π(1-π)D .n π 6.服从⼆项分布的随机变量的总体标准差为。

A . B .(1-π)(1-π)( -)π1 C . D . π(1-π)(π 7.设X 1,X 2分别服从以λ1,λ2为均数的Poisson 分布,且X 1与X 2独⽴,则X 1+X 2服从以为⽅差的Poisson 分布。

A . B.λ2λ12+2λ2λ1+ C . D . 2λ2λ1+() 2λ2λ1+() E .λ2λ12+2 8.满⾜时,Poisson 分布Ⅱ(λ)近似正态分布。

A.λ⽆限⼤ B.λ>20 C.λ=1 D.λ=0 E.λ=0.59.满⾜时,⼆项分布B(n,π)近似Poisson分布。

A.n很⼤且π接近0 B.n→∞ C.nπ或n(1-π)⼤于等于5D.n很⼤且π接近0.5 E.π接近0.510.关于泊松分布,错误的是。

A.当⼆项分布的n很⼤⽽π很⼩时,可⽤泊松分布近似⼆项分布B.泊松分布均数λ唯⼀确定C.泊松分布的均数越⼤,越接近正态分布D.泊松分布的均数与标准差相等E.如果X1和X2分别服从均数为λ1和λ2的泊松分布,且相互独⽴。

概率分布与抽样分布

概率分布与抽样分布

x 2.5
2 x
0.625
样本均值的抽样分布
一般的当总体服从 Nμσ二 时来自该总体的容量为n的 样本的均值X也服从正态分布X 的期望为μ方差为σ
二/n即X~Nμσ二/n
=10
= 50 X
总体分布
n= 4
x 5
n =16
x 2.5
x 50
X
抽样分布
中心极限定理
中心极限定理:从均值为方差为 二的一个任意
§四.二.二 正态分布和有关概率计算
若随机变量 X 的概率密度为
f(x) 1 e2 12x2 , x
2
其中 和 都是常数,任意,>0, 则称X服从参数为 和 的正态分布.
记作 X~N(,2)
fx所确定的曲线叫作正态曲线
正态曲线图形的特点
正态分布的密度曲线是一条关于 对称的钟
形曲线
决定了图形的中心位置;
0
不同自由度的t分布
tZ
§四.三.二 样本比例的抽样分布
设总体比例等于p则总体方差等于p一-p 重复抽样时样本比例 pˆ服从二项分布 中心极限定理:n很大时二项分布趋向于正态
分布 一般认为np≥五、n一-p≥五时可以用正态分布
来进行近似计算:
pˆ ~N(p, p(1p)) n
样本比例的抽样分布不重复抽样
Z=0.三一
对于已知的概率求X值
.六二 一七
.六二 一七
10
0
Z=0.三
5 X=

Xz5 0 .3* 1 0 5 .31
在Excel和 SPSS 中计算概率
在实际应用中现在可以直接使用Excel或统计软件 中的有关函数进行有关概率计算具体方法参见配 套教材

第四章常用概率分布学习指导(定)详解

第四章常用概率分布学习指导(定)详解

第四章 常用概率分布[教学要求]了解:质量控制的意义、原理和方法 熟悉:三个常用概率分布的特征。

掌握:掌握三个常用概率分布的概念;二项分布及Poisson 分布的概率函数与累计概率、正态分布的分布函数的计算方法;医学参考值的计算。

[重点难点]第一节 二项分布一、二项分布的概念与特征基本概念:如果每个观察对象阳性结果的发生概率均为,阴性结果的发生概率均为(1-π);而且各个观察对象的结果是相互独立的,那么,重复观察n 个人,发生阳性结果的人数X 的概率分布为二项分布,记作B (n ,π)。

二项分布的概率函数:Xn X X n C X P --=)1()(ππ二项分布的特征:二项分布图的形态取决于与n ,高峰在=n 处。

当接近0.5时,图形是对称的;离0.5愈远,对称性愈差,但随着n 的增大,分布趋于对称。

二项分布的总体均数为 πμn = 方差为 )1(2ππσ-=n 标准差为 )1(ππσ-=n 如果将出现阳性结果的频率记为 nX p =则p 的总体均数为 πμ=p 标准差为二、二项分布的应用二项分布出现阳性的次数至多为k 次的概率为np )1(ππσ-=∑∑==-==≤kX kX XX eX P k X P 0!)()(λλ出现阳性的次数至少为k 次的概率为第二节 Poisson 分布的概念与特征一、Poisson 分布的概念与特征基本概念:Poisson 分布可以看作是每个观察对象阳性结果的发生概率很小,而观察例数n 很大时的二项分布。

除二项分布的三个基本条件以外,Poisson 分布还要求 接近于0。

有些情况和n 都难以确定,只能以观察单位(时间、空间、面积等)内某种稀有事件的发生数X 来近似。

Poisson 分布的概率函数:式中,πλn =为Poisson 分布的总体均数,X 为观察单位内某稀有事件的发生次数,e 为自然对数的底,λ为常数,约等于2.71828。

Poisson 分布的特征Poisson 分布当总体均数λ值小于5时为偏峰,λ愈小分布愈偏,随着λ增大,分布趋向对称。

卫生统计学七版 第四章常用概率分布

卫生统计学七版 第四章常用概率分布
上限: X 1.96s 117.4 1.9610.2 137.39( g / l ) 下限: X 1.96s 117.4 1.9610.2 97.41( g / l )
该地健康女性血红蛋白的95%医学参考值范围在 137.39~97.41之间。
2、质量控制图 随机误差服从正态分布,而系统误差 则不服从正态分布。
例4 10
如果某地居民脑血管疾 病的患病率为 150/ 10万,
那么调查该地 1000 名居民中至多有 2人患脑血管疾病的概率 有 多大?至少有 3人患脑血管疾病的概率 有多大?
n 1000 0.0015 1.5
调查该地 1000 名居民中至多有 2人患脑血管疾病的概率 为0.809, 至少有3人患脑血管疾病的概率 为0.191 。
那么调查该地 1000 名居民中有2人患脑血管疾病的概率 有多大?
n 1000 0.0015 1.5
2 1 . 5 P( X 2) e 1.5 0.251 2!
调查该地 1000 名居民中有2人患脑血管疾病的概率 为25.1%。
2、累积概率计算
稀有事件发生次数至多为k次的概率为:
2、累积概率计算 二项分布出现阳性次数最多为k次的概率:
二项分布出现阳性次数至少为k次的概率:
二项分布出现阳性次数至少为k次至至多为K次的概率(k<K):
n! P(k X K ) P( X ) X (1 ) n X k X k X !( n X )!
K K
(1) 百分位数法 适用范围:偏态分布的资料。
双侧界值:P 和P 2.5 97.5 单侧上界:P 95 单侧下界:P 5
(2) 正态分布法 适用范围:正态或近似正态分布的资料。

概率论与数理统计第四章_几种重要的分布

概率论与数理统计第四章_几种重要的分布
用贝努公式计算ξ的分布律下
ξ
0
1
2
3
4
p 0.0016 0.0256 0.1536 0.4096 0.4096
4.2超几何分布(了解)
主要内容: (一)了解超几何分布的概念 (二)了解超几何分布的期望和方差
4.2超几何分布
例1 某班有学生20名,其中有5名女同学,今从 班上任选4名学生去参观展览,被选到的女同学数ξ
k1 (k 1)!(n k)!
n
(k 11)n! pk (1 p)nk
k1 (k 1)!(n k)!
n
(k 1)n!
n
pk (1 p)nk
n!
pk (1 p)nk
k1 (k 1)!(n k)!
k1 (k 1)!(n k)!
n
n!
n
pk (1 p)nk
n!
pk (1 p)nk
k2 (k 2)!(n k)!
解 可以取0,1,2,3这4个值。
P(
=k)=
C3k
C4k 17
C420
(k=0,1,2,3,)
列成概率分布如下
ξ
0
1
2
3
p 0.4912 0.4211 0.0842 0.0035
定义42 设N个元素分为两类,有N1个属于第一类, N2个属于第二类(N1+N2=N)。从中按不重复抽 样取n个,令ξ表示这n个中第一(或二)类元素的个数,
k1 (k 1)!(n k)!
n2
n1
n(n 1)Cnl 2 pl2 (1 p)n2l nCnj1 p j1(1 p)n1 j
l0
j0
n2
n(n 1)Cnl 2 pl2 (1 p)n2l l0

4概率分布及参数估计

4概率分布及参数估计

第四章 概率分布及参数估计一、填空题1.抽样误差是不可避免的,但可随着____样本含量___的增大而减小,反映抽样误差大小的指标是___标准误____。

2.参数估计有两种方法:一种是直接利用样本统计量的值来估计总体参数,称为___点估计____;另一种是按一定的置信度来估计总体参数所在范围,称____区间估计___。

3.确定正态分布的两个参数是 ___均数μ____和 ___标准差σ___。

4.二项分布变量X 的均数是____ nπ___,标准差是___π)-n π(1____;频率P=n X的均数是___π____,标准差是___nπ)-π(1____。

5.Poisson 分布变量的均数是____λ___,标准差是____λ___。

二、分析计算题1.有人就食管癌与进食腌制食品的关系进行了病例-对照研究,由某医院近期确诊的所有食管癌患者构成病例组,同一医院中患有其他急性疾患的患者按照性别、年龄和职业匹配构成对照组,以完全相同的方法询问腌制食品的食用情况,结果如下表所示。

腌制食品食管癌 其他急性疾病 经常食用537 554 不常食用639 922 合计1176 1476试估计条件概率P (经常食用|食管癌)和P (经常食用|其他急性疾患)。

能否估计P (食管癌|经常食用)和P (其他急性疾患|经常食用)?如何描述进食腌制食品对食管癌发病机会的影响?答 :设食用腌制品为事件A ,患食管癌为事件B 。

P (A |B )=0.457,P (A |B )=0.3753;不能估计P (B |A );食用腌制品对食管癌发病机会的影响为P (A |B )/P (A |B )=1.2166。

2.据统计,某医院急性腹痛患者中30%患急性阑尾炎;阑尾炎患者中70%体温高于37.5℃,而非急性阑尾炎患者中只有40%体温高于37.5℃作为一项鉴别诊断的依据,试计算条件概率P (急性阑尾炎|急性腹痛患者体温高于37.5℃)。

生物统计附实验设计课件 第四章 常用概率分布

生物统计附实验设计课件 第四章  常用概率分布
第四章 常用概率分布
第一节 随机事件与概率
1. 随机事件 随机试验: 科学研究中,有一类试验可以在相同条件 下重复进行,每次试验存在多种可能的结果,而究竟 出现哪种结果在试验之前不能肯定,这类试验称为随 机试验。随机试验的结果重复性越好,结果越可靠。 随机事件: 随机试验的每一种可能结果,在一定条件 下可能发生,也可能不发生,称为随机事件,用A、B、 C等表示。
F(-0.5)=0.69146-0.30854=0.3829 (F值查附表) 由于合格与不合格为对立事件,所以任一扇贝 不合格的概率P=1-0.3829=0.6171
常用概率分布
若记随机变量X的取值落入(-∞,������)的概率为 F(x),则。
������
������ ����� =
������ ������ ������������, 称������ ������ 为连续型随机变量������
−∞
的分布函数。分布函数和密度函数为积分与微分的 关系。它具有两条性质: 1)F(x)为单调不减函数, 右连续,即������������ <������������ 时,F(������������ )<F(������������ ); 2)F(−∞)=0, F(+∞)=1。 计算落入[a, b]的x值概率,用分布函数表示为: ������ ������ ������ P(a≦x≦b)= ������ ������ ������ ������������ = −∞ ������ ������ ������������ − −∞ ������(������) ������������ = F(b)-F(a)
概率的乘法法则 对于两事件A、B,若P(A)>0,则有P(AB)=P(A)P(B/A); 若P(B)>0,则有P(AB)=P(B)P(A/B),其中P(B/A)是指 事件A发生条件下事件B的条件概率。 若事件A与事件B相互独立,则有P(AB)=P(A)P(B)

第4章 几种常见的概率分布

第4章 几种常见的概率分布

6. 正态分布的单双侧临界值
面积为,已知 上侧临界值 P(U> u )= α ,下侧临界值 P (U <- u )= α (附表 3 上侧临界值)
若将一定曲线下面积α,平分到两侧尾区,则每侧曲线下面积为α/2,
即 P(
U U 2
)=
α,
U 这时的
U
2
称为α的双侧临界值。
面积为,已知
u 称为的上侧临界值。 附表3 (256页)给出了u的值。
N(0,1)
x=0 时,φ(x) 达到最大值
(1) 关于点(0,0.5)对称,该点也
是它的拐点
(2)x 取值离原点越远,φ (x) 值越小 (2) 曲线以 y = 0 和 y = 1 为渐近线;
(3)关于 y 轴对称,即φ(x)= φ (- x)
(3) Ф(1.960)-Ф(-1.960) = 0.95
种变量有它各自的概率而组成一个分布。这个分布就叫做二项概率分布,或简称二项分布
(binomial distribution) 由此得到计算二项分布任何一项概率的通式为:p(x) =Cnx φ
x(1- φ)n-x
二项分布是一种离散型随机变量的概率分布
性质
n
Cnx x (1 )nx 1
x0
m
一指定时间范围内或在指定的面积或体积内某一事件出现的个体数的分布 泊松分布是一种离散型随机变量的概率分布
实例 调查某种猪场闭锁育种群仔猪畸形数,共记录 200 窝, 畸形仔猪数的分布情况如下表所
示。试判断畸形仔猪数是否服从泊松分布。 畸形仔猪数统计分布
解:根据泊松分布的平均数与方差相等这一特征,若畸形仔猪数服从泊松分布,则由观察数 据计算的平均数和方差就近于相等。样本均数和方差 S2 计算结果如下:

第四章 概率与概率分布

第四章   概率与概率分布

第三节 随机变量及其分布
一、 随机变量 (一) 随机变量的定义
表示随机现象观测结果的变量称为随机变量。随 机变量可用X、Y、Z……表示。 (二)随机变量的类型 1、离散型随机变量
只能取有限个或可列个孤立值的随机变量称为离 散型随机变量。 2、连续型随机变量
取值连续充满某一区间的随机变量称为连续型随 机变量。
二 、随机变量的概率分布
(一)离散型随机变量的概率分布 掌握一个离散型随机变量的概率分布规
律,必须掌握两点: 1、随机变量X所取的可能值是什么? 2、随机变量X取每一个可能值的概为多少?
p( X x1) p1, p( X x2 ) p2 , p( X xn ) pn
离散型随机变量的分布规律可用分布列 的形式来表示。
Y yi
P(Y yi ) Pi
0 0.14
1 0.22
2 0.64
离散型随机变量的概率分布具有下面两 个重要性质:
1、随机变量取任何值时,其概率都是非负 的。即 P1≥0, ≥P02 ,…… ≥0P。n 2、随机变量取遍所有可能值时,相应的概 率之和等于1,即
n
pi 1
i 1
P(-0.52<u<1.34) = P(–∞<u<1.34)- P(–∞<u<-0.52) =0.9099 - 0.3015 =0.6084
2、已知u的取值落入某一区间的概率 , 求u值。 [例13]已知P(u<x)=0.0869,求x P(u<x)=0.0869 查标准正态分布表(1) P(–∞<u<-1.36)=0.0869 即P(u<-1.36)=0.0869 X=-1.36
第二节 随机事件的概率

4.4 正态分布概念与特征

4.4 正态分布概念与特征

f (X)=
1
­ 12 æçè
X ­m s
ö ÷ ø
2
e,
s 2p
- ¥<X<+ ¥
图3 正态曲线位置、形状与μ和σ关系示意图
5
正态分布的概率密度函数(即纵向的曲线高度)
f (X)=
1
­ 12 æçè
X ­m s
ö ÷ ø
2
e,
s 2p
- ¥<X<+ ¥
图3 正态曲线位置、形状与μ和σ关系示意图
6
第四章 常用概率分布
四、正态分布的概念与特征
一、正态分布的概念
正态分布是自然界最常见的分布之一,例如测量的误差、人体许多生化 指标的测量值等等都可认为近似正态分布。此外,正态分布具有许多良好的 性质,许多理论分布在一定条件下可用正态分布近似,一些重要的分布可由 正态分布导出。可以说正态分布是统计学中最重要的分布。
准化变换,也称Z变换, Z = X - m s
标准正态分布的密度函数:
f (Z) =
1
-Z2
e2
2p
10
正态概率密度曲线下的面积
标准正态分布方程积分式(分布函数):
ò F ( z) = 1
Z
- z2
e 2 dZ
2p -¥
Φ(Z)为标准正态变量 Z的累计分布函数,反映标准正态曲线 下,横轴尺度自-∞到Z的面积,即下侧累计面积 。
X ±1.28S 区间内,即116.9cm~129.2cm。
24
正态分布的特征
1.关于 x = m 对称。即正态分布以均数为中心,左右对称。 2. 在 x = m 处取得概率密度函数的最大值,在x = m ± s 处有
拐点,表现为 钟形曲线。即正态曲线在横轴上方均数处最高。

应用统计学(第四章 概率与概率分布)

应用统计学(第四章 概率与概率分布)
(标准化),才可用正态分布表的方法求其概率
服从正态分布N(μ,σ2)的随机变量,x的取值落在区间 [x1,x2) 的概率P(x1≤x<x2),等于服从标准正态分布的随机变 量u在[(x1-μ)/σ, (x2-μ)/σ)内取值的概率。
u x
P(a u b) Φ(b) Φ(a) P( u a) 2Φ(a) P( u <a) 1 2Φ(a) P(0 u<a) Φ(a) 0.50 P(u a) 1 Φ(a) Φ(a)
1)正态分布的特征
a. x=μ 时 f(x) 值最大,密度曲线以μ为中心分布
b. x-μ绝对值相等时f(x) 相等,密度曲线以μ为中心两侧 对称
c. f(x)是非负函数,以x轴为渐近线
d.正态分布曲线由参数μ,σ 决定, μ 确定正态分 布曲线在x轴上的中心位置,σ 确定正态分布的变异度
e.正态分布曲线在x =μ±σ 处各有一个拐点,曲线通
是根据随机事件本身的特性直接计算其概率 随机事件若满足
试验的所有可能结果只有有限个,即样本空间中的基本 事件只有有限个
各个试验的可能结果出现的可能性相等,即所有基本事 件的发生是等可能的
试验的所有可能结果两两互不相容
则若样本空间由n个等可能的基本事件所构成,其中事件A 包含有m个基本事件,则事件A的概率为m/n,即 P(A)=m/n
x-
x+
b.连续型变量的概率分布
连续型随机变量的概
率分布因取值数不可数而 样本容量 n 足够大时,频率分
不能用分布律来表示
布趋于稳定,近似地看成总
体概率分布
n 无限大时
频率转化为概率 频率密度转化为概率密度 频率分布转化为概率分布 曲线为总体概率密度曲线 函数f(x)称为概率密度函数

第4章 概率及正态分布

第4章 概率及正态分布
σ2 = 总体方差 π =3.14159; e = 2.71828 x = 随机变量的取值 (-∝ < x < ∝) µ = 总体均值
正态分布的概率
概率是曲线下的面积! 概率是曲线下的面积!
ϕ (x )
P(a ≤ x ≤ b) = ∫ f (x)dx = ?
a
b
a
b
x
左右各一个标准差范围内的面积:68.27% 左右各一个标准差范围内的面积:68.27%; 左右各一个标准差范围内的面积:95.45% 左右各一个标准差范围内的面积:95.45%; 左右各一个标准差范围内的面积:99.73% 左右各一个标准差范围内的面积:99.73%;
第四节 大数定理与中心极限定理
大数定理
少量的随机现象是没有稳定性规律的; 少量的随机现象是没有稳定性规律的; 大量随机现象构成的总体,呈现的规律具有稳定性, 大量随机现象构成的总体,呈现的规律具有稳定性,有关 这一系列的定理, 大数定理; 这一系列的定理,称大数定理; 大数定理有:贝努里大数定理、切贝谢夫大数定理; 大数定理有:贝努里大数定理、切贝谢夫大数定理;P163 大数定理说明了大量现象的稳定规律:频率值趋于概率值, 大数定理说明了大量现象的稳定规律:频率值趋于概率值, 平均值趋于期望值。 平均值趋于期望值。 例如,一家一户,在自然的生育的情况下, 例如,一家一户,在自然的生育的情况下,生男生女纯属 偶然,但统计成千上万户的结果后,其性别比约为1/2将 偶然,但统计成千上万户的结果后,其性别比约为 将 是稳定的。 是稳定的。 所以,大数定理是把偶然性因素消除掉, 所以,大数定理是把偶然性因素消除掉,使共性表现出来 大数定理抽样调查的大样本( ≧ 大数定理抽样调查的大样本(n≧50)提供了理论基础 提供了理论基础
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第四章常用概率分布为了便于读者理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念——事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布——正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。

第一节事件与概率一、事件(一)必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。

例如,在标准大气压下,水加热到100℃必然沸腾;步行条件下必然不可能到达月球等。

这类现象称为必然现象(inevitable phenomena)或确定性现象(definite phenomena)。

另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。

例如,掷一枚质地均匀对称的硬币,其结果可能是出现正面,也可能出现反面;孵化6枚种蛋,可能“孵化出0只雏”,也可能“孵化出1只雏”,…,也可能“孵化出6 只雏”,事前不可能断言其孵化结果。

这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象(random phenomena)或不确定性现象(indefinite phenomena)。

人们通过长期的观察和实践并深入研究之后,发现随机现象或不确定性现象,有如下特点:在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性——频率的稳定性,通常称之为随机现象的统计规律性。

例如,对于一头临产的妊娠母牛产公犊还是产母犊是事前不能确定的,但随着妊娠母牛头数的增加,其产公犊、母犊的比例逐渐接近1:1的性别比例规律。

概率论与数理统计就是研究和揭示随机现象统计规律的一门科学。

(二)随机试验与随机事件1、随机试验通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。

而一个试验如果满足下述三个特性,则称其为一个随机试验(random trial),简称试验:(1)试验可以在相同条件下多次重复进行;(2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;(3)每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。

如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。

2、随机事件随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。

(1)基本事件我们把不能再分的事件称为基本事件(elementary event),也称为样本点(sample point)。

例如,在编号为1、2、3、…、10的十头猪中随机抽取1头,有10种不同的可能结果:“取得一个编号是1”、“取得一个编号是2”、…、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。

由若干个基本事件组合而成的事件称为复合事件(compound event)。

如“取得一个编号是2的倍数”是一个复合事件,它由“取得一个编号是2”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。

(2)必然事件我们把在一定条件下必然会发生的事件称为必然事件(certain event),用Ω表示。

例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个必然事件。

(3)不可能事件我们把在一定条件下不可能发生的事件称为不可能事件(impossible event),用ф表示。

例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。

必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见,我们把它们看作为两个特殊的随机事件。

二、概率(一)概率的统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。

这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率(probability)。

事件A的概率记为P(A)。

下面我们先介绍概率的统计定义。

在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。

这样定义的概率称为统计概率(statistics probability),或者称后验概率(posterior probability)。

例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。

在表4—1中列出了他们的试验记录。

表4—1 抛掷一枚硬币发生正面朝上的试验记录实验者投掷次数发生正面朝上的次数频率(m/n)蒲丰4040 2048 0.5069k.皮尔逊12000 6019 0.5016k.皮尔逊24000 12012 0.5005从表4-1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。

在一般情况下,随机事件的概率p是不可能准确得到的。

通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。

即 P (A )=p ≈m/n (n 充分大) (4-1)(二)概率的古典定义 上面介绍了概率的统计定义。

但对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。

有很多随机试验具有以下特征:1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;3、试验的所有可能结果两两互不相容。

具有上述特征的随机试验,称为古典概型(classical model )。

对于古典概型,概率的定义如下:设样本空间由n 个等可能的基本事件所构成,其中事件A 包含有m 个基本事件,则事件A 的概率为m/n ,即P (A )=m/n (4-2)这样定义的概率称为古典概率(classical probability )或先验概率(prior probability )。

【例4.1】在编号为1、2、3、…、10的十头猪中随机抽取1头,求下列随机事件的概率。

(1)A =“抽得一个编号≤4”;(2)B =“抽得一个编号是2的倍数”。

因为该试验样本空间由10个等可能的基本事件构成,即n =10,而事件A 所包含的基本事件有4个,既抽得编号为1,2,3,4中的任何一个,事件A 便发生,即m A =4,所以P(A)=m A /n =4/10=0.4同理,事件B 所包含的基本事件数m B =5,即抽得编号为2,4,6,8,10中的任何一个,事件B 便发生,故P(B)=m B /n =5/10=0.5。

【例4.2】 在N 头奶牛中,有M 头曾有流产史,从这群奶牛中任意抽出n 头奶牛,试求:(1)其中恰有m 头有流产史奶牛的概率是多少?(2)若N =30,M =8,n =10,m =2,其概率是多少?我们把从有M 头奶牛曾有流产史的N 头奶牛中任意抽出n 头奶牛,其中恰有m 头有流产史这一事件记为A ,因为从N 头奶牛中任意抽出n 头奶牛的基本事件总数为n N C ,事件A 所包含的基本事件数为m n M N m M C C --⋅ ,因此所求事件A 的概率为)(A P =n N m n MN m M C C C --.将N =30,M =8,n =10,m =2代入上式,得)(A P =103021083028.C C C --= 0.0695即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出10头奶牛其中有2头曾有流产史的概率为6.95%。

(三)概率的性质 根据概率的定义,概率有如下基本性质:1、对于任何事件A ,有0≤P (A )≤1;2、必然事件的概率为1,即P (Ω)=1;3、不可能事件的概率为0,即P(ф)=0。

三、小概率事件实际不可能性原理随机事件的概率表示了随机事件在一次试验中出现的可能性大小。

若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。

小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。

在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。

小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。

在下一章介绍显著性检验的基本原理时,将详细叙述小概率事件实际不可能性原理的具体应用。

第二节概率分布事件的概率表示了一次试验某一个结果发生的可能性大小。

若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。

为了深入研究随机试验,我们先引入随机变量(random variable)的概念。

一、随机变量作一次试验,其结果有多种可能。

每一种可能结果都可用一个数来表示,把这些数作为变量x的取值范围,则试验结果可用变量x来表示。

【例4.3】对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、“1头治愈”、“2头治愈”、“...”、“100头治愈”。

若用x表示治愈头数,则x的取值为0、1、2、 (100)【例4.4】孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。

若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。

【例4.5】测定某品种猪初生重,表示测定结果的变量x所取的值为一个特定范围(a,b),如0.5―1.5kg,x值可以是这个范围内的任何实数。

如果表示试验结果的变量x,其可能取值至多为可列个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量(discrete random variable);如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量(continuous random variable)。

相关文档
最新文档