第三章 常用概率分布之正态分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于服从正态分布N(μ,σ2)的随机变量x,以 下几个概率[即随机变量x在区间( μ – kσ, μ + kσ )内取值的概率,k=1,2,3,1.96,2.58 ]应用 较多
P( μ – σ ≤x< μ + σ)=0.6826 P( μ – 2σ ≤x< μ + 2σ)=0.9545 P( μ – 3σ ≤x< μ + 3σ)=0.9973 P( μ – 1.96σ ≤x< μ + 1.96σ)=0.95 P( μ – 2.58σ ≤x< μ + 2.58σ)=0.99
第三章
常用概率分布
第一节 事件与概率 第二节 概率分布 第三节 二项式分布 第四节 正态分布 第五节 样本平均数抽样分布与标准误 第六节 t分布,x2分布和F分布
第三章
常用概率分布
第一节 事件与概率 第二节 概率分布 第三节 二项式分布 第四节 正态分布 第五节 样本平均数抽样分布与标准误 第六节 t分布,x2分布和F分布
德莫佛
de Moivre
高斯 Gauss
球的数目足够大,它们在底板将堆成 近似于正态的密度函数图形这是英国 生物统计学家高尔顿设计的用来研究 随机现象的模型。
高 尔 顿 钉 板 试 验
研究正态分布的意义:
正态分布
1. 客观世界的许多现象的数据是服从正态分布规律的。
2. 在适当条件下,正态分布可以用来作二项分布及其 它间断性变数或连续性变数分布的近似分布。
除了年降雨量、身高、男女出生率比 例、成绩分布之外,在正常条件下各种产品 的质量指标,如零件的尺寸;纤维的强度 和张力;农作物的产量,小麦的穗长、株 高;测量误差,射击目标的水平或垂直偏 差;信号噪声等等,都服从或近似服从正 态分布.
服从正态分布 N ( , 2 ) X的概率密度是
的随机变量
3. 虽然某些总体不作正态分布,但从总体中随机抽出 的样本平均数及其它一些统计数的分布,在样本容 量适当大时仍然趋于正态分布。
正态分布的定义
若随机变量X的概率分布密度函数为
( x )2 2 2
1 f ( x) e , x 2 2 2 >0, 其中 和 都是常数, 任意, 则称X服从参数为 和 2 的正态分布.
=0.0227
0.020
fN (x)
0.020
fN (x)
0.016
0.016
0.012
0.012
0.008
P( y 40) 0.9773
P( y 26) 0.2119
0.008
0.004
0.004
0.000 10 15 20 25 30 35 40 45
0.000 10 15 20 25 30 35 40 45
FN (xi )
x0
fN (X ) dx
计算正态分布曲线区间{a ≤x ≤b}面积或概率的方法
P(a x b )
a
b
1 2
e
1 x 2
dx
2
现如给予变数任何一定值,例如a,那么,可以计算y≤a的 概率为FN(a),即
P(X a) FN (a)
首先计算:
查附表2,当u=-0.8时,FN(26)=0.2119,说明这 一分布从-∞到26范围内的变量数占全部变量数的 21.19%,或者说,y≤26概率为0.2119. 同理可得: FN(40)=0.9773
所以:P(26<y≤40)=FN(40)-FN(26)=0.9773-0.2119
= 0.7654 P(y>40)=1-P(y≤40)=1-0.9773
标准正态分布
正态分布的曲线图
fN (x )
0.4
fN(u)
0.4
0.3
0.3
68.27%
0.2
68.27%
0.2
0.1
95.45%
0.1
95.45%
0.0
2
2
0.0
u
-3 -2 -1
0 1
2
3
(平均数为 ,标准差为 )
图4.6 正态分布曲线图
图4.7 标准正态分布曲线图 (平均数 为0,标准差 为1)
X U 设 X ~ N ( , ) ,则Y ~N(0,1) 根据定理1,只要将标准正态分布的分布 函数制成表,就可以解决一般正态分布的概 率计算问题.
2
正态分布表
书末附表1有标准正态分布函数数值表,有 了它,可以解决一般正态分布的概率计算查 2 t 表. 1 x
( x)
请同学们想一想,实际生活中哪些随 机变量具有正态分布的特点?
用上海 99 年年降雨量的数据画出了 频率直方图。
从直方图,我们可以初步看出,年降 雨量近似服从正态分布。
用某大学男大学生的身高的数据画出 的频率直方图。
红线是拟 合的正态 密度曲线
可见,某大学男大学生的身高 应服从正态分布。
学生的考试成绩高低不等,但中等成绩的 占大多数,高分和不及格的一般只是少数, 并且较高分和较低分的人数大致相近,这 从一个方面反映了服从正态分布的随机变 量的特点。
4. 均匀变动性:正态曲线由均数所在处开始,分别向左 右两侧逐渐均匀下降。正态分布曲线是以平均数和标 准差的不同而表现为一系列曲线;
5. 正态分布曲线在离开平均数一个标准差处有拐点,且 曲线是以x轴为渐进线; 6. 正态分布曲线与x轴间的面积为1,任何两个x定值间的 面积或概率由平均数和标准差确定。
0.020
fN (x)
P(26 y 40) 0.7654
0.020
fN (x)
P( y 40) 0.0227
0.016
0.016
0.012
0.012
0.008
0.008
0.004
0.004
0.000 10 15 20 25 30 35 40 45
0.000 10 15 20 25 30 35 40 45
1 f ( x) e 2
( x )2 2 2
, x
(3)容易看到,f(x)≥0 (非负函数) 即整个概率密度曲线都在x轴的上方;
1 f ( x) e 2
( x )2 2 2
, x
当x→ ∞时,f(x) → 0, 这说明曲线 f(x)向左右伸展时,越来越 贴近x轴(不相交)。即f (x)以x轴为渐近 线。
概率计算图示
[例] 假定棉花纤维长度的系列观测值是一组随机变数且
具有正态分布,平均数 =29.83mm, 标准差 =1.045, 试计算需要50株纤维长度x≥32mm的棉花,需要至少种植 多少株棉花?
F(X ≥32mm)=1-F(X<32mm) U=(32-29.83)/1.045=2.08
记作 X ~ N ( , 2 ) f (x)所确定的曲线叫作正态分布密度曲线.
正态分布
N ( , ) 的图形特点
2源自文库
(1)正态分布的密度曲线是一条关于 对
称的钟形曲线.
特点是“两头小,中间大,左右对称”.
1 f ( x) e 2
( x )2 2 2
, x
如果a与b(a<b)是X的两个定值,则其区间概率可从下式计算:
P(a X b ) FN (b ) FN (a)
fN(X)
A=P(a<y<b)
正态分布密度函数的积分说明图面积A=P(a<y<b)
正态分布由它的两个参数μ和σ唯 一确定, 当μ和σ不同时,是不同的 正态分布。
下面我们介绍一种最重要的正态分布
1 f ( x) e 2
( x )2 2 2
, x
X的分布函数F(X)是怎样的呢?
设X~
N ( , ) , X的分布函数是
2
F(X)=P{X≤Xi}又称为累积函数,含义是X值小 于等于某个指定值的概率
F(X)本质上是概率,可用曲线下区间的面积来表示 (几何意义),或者说,用其定积分的值表示(数学) 计算曲线下从-∞到x的面积,其公式如下:
生长始盛期
盛末期
-∞
+∞
(4)分布密度曲线在x=μ±σ处各有一 个拐点(求导)
(5)正态分布
N ( , ) 的图形特点
2
决定了图形的中心位置, 决定了图形 中峰的变异(陡峭)程度.
(6)分布密度曲线与横轴构成的曲 边三角形的面积为1
正态分布
小结:正态分布曲线的特点:
1. 服从正态分布的变量的频数分布由μ、σ完全决定。 2. 集中性:正态曲线的高峰位于正中央,即均数所在的 位置,算术平均数、中数、众数三位合一。 3. 对称性:正态曲线以均数为中心,左右对称,曲线两 端永远不与横轴相交。
0.5
0.5
0.4
P(1 u 1) 0.6827
0.4
P(2 u 2) 0.9545
0.3
0.3
0.2
0.2
0.1
0.1
0.0 -3 -2 -1 0 1
0.5 2
0.0
3
-3
-2
-1
0
1
2
3
0.4
0.3
P(3 u 3) 0.9973
0.2
0.1
0.0 -3 -2 -1 0 1 2 3
所有正态分布都可以转换为标准化正态分布方程式
yμ u σ
然后查表计算概率。
(u )
1 2
e
1 u2 2
[例] 假定y是一随机变数具有正态分布,平均数
=30,标准差 =5,试计算小于26,小于40的概率,
介乎26和40区间的概率以及大于40的概率。
P( y 26) FN (26) y μ 26 30 先将y转换为u值 u 0.8 σ 5
第四节 正态分布
一、正态分布曲线的特性 二、标准正态分布及其累积函数 (曲线区间面积或概率) 三、实际次数资料的理论配合
四、二项分布的正态近似
正态分布(Normal distribution)是应用最广泛的 一种连续型分布. 德莫佛最早发现了二项概率 的一个近似公式,这一公式被认 为是正态分布的首次露面. 正态分布在十九世纪前叶由 高斯加以推广,所以通常称为高 斯分布(Gaussian distribution).
图4.13 离均差的绝对值≤1 , 2 和3 的概率值
随机变量x在区间( μ – kσ, μ + kσ )外取值的概率P ( x<μ – kσ ) + P( x>μ + kσ )为两尾概率,记为α P ( x<μ – kσ ) + P( x>μ + kσ )=α P ( x<μ – kσ ) = P( x>μ + kσ )=α/2 两尾分位数Uα
1-F(u=2.08)=0.0188
50/0.0188=2660株
对于服从正态分布N(μ,σ2)的随机变量x,以下 几个概率[即随机变量x在区间( μ – kσ, μ + kσ ) 内取值的概率,k=1,2,3,1.96,2.58 ]应用较多
P( μ – σ ≤x< μ + σ)=0.6826 P( μ – 2σ ≤x< μ + 2σ)=0.9545 P( μ – 3σ ≤x< μ + 3σ)=0.9973 P( μ – 1.96σ ≤x< μ + 1.96σ)=0.95 P( μ – 2.58σ ≤x< μ + 2.58σ)=0.99 X的取值几乎全部集中在[μ – 3σ , μ + 3σ]区 间内,超出这个范围的可能性不到0.3%,这 在统计学上称作“3σ准则”
2
e
2
dt
表中给的是x>0时, Φ(x)的值. 当-x<0时
x
x
( x) 1 ( x)
若 X~N(0,1),
P (a X b ) (b ) (a )
若 X ~ N ( , ),
2
X U Y ~N(0,1)
a U b Y ) P (a X b ) P( b a ( ) ( )
标准正态分布
μ=0和σ=1的正态分布称为标准正态分布. 其密度函数和分布函数常用 ( x ) 和 ( x ) 表示:
1 ( x) e , x 2 t2 1 x 2 ( x) e dt 2
( x)
x2 2
( x )
标准正态分布的重要性在于,任何一个 一般的正态分布都可以通过线性变换转化为 标准正态分布. 它的依据是下面的定理: 定理1
令x=μ+c, x=μ-c (c>0), 分别代入f (x), 可得 f (μ+c)=f (μ-c)
且 f (μ+c) ≤f (μ), f (μ-c)≤f (μ)
(2)故f(x)以μ为对称轴,并在x=μ处达 到最大值: 1 f ( ) 2
能不能根据密度函数的表达式, 得出正态分布的图形特点呢?