正态分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
高斯与正态分布
1809年,高斯(Carl Friedrich Gauss,1777—1855)发表了其数学和天体力学的名著《绕日天体运动的理论》。在此书末尾,他写了一节有关“数据结合”(data combination)的问题,实际涉及的就是这个误差分布的确定问题。
他的做法与拉普拉斯相同。但在往下进行时,他提出了两个创新的想法。一是他不采取贝叶斯式的推理方式,测量误差是由诸多因素形成,每种因素影响都不大。按中心极限定理,其分布近似于正态分布是势所必然。其实,早在1780年左右,拉普拉斯就推广了狄莫佛的结果,得到了中心极限定理的比较一般的形式。可惜的是,他未能把这一成果用到确定误差分布的问题上来。高斯的第二点创新的想法是:他把问题倒过来,先承认算术平均是应取的估计,然后去找误差密度函数条件下才能成立,这就是正态分布。一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。遵从正态分布的随机变量的概率规律为取μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2=1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。
高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。
三、正态分布
正态分布(normal distribution)是连续性变数的一种理论分布,许多生物学领域的随机变量都服从正态分布,因此,它是生物统计的重要基础。
与二项分布一样,正态分布也有其概率密度函数:
()
()2
2
2
1
2
x
f x e
μσ
σπ
--
=
正态分布概率密度函数的图像称作正态分布曲线或正态概率曲线,如图6-1。
图6-1 正态分布曲线图
(一)正态分布曲线的特征
由正态分布曲线图,可以看出它有以下特征:
1.正态分布曲线是中间高、两边低,而且对称的光滑曲线,曲线最高峰在平均数处,越是接近平均数的组变量分布的次数越多、离平均数越远,分布的次数越少。
2.正态分布曲线因总体平均数和标准差的不同呈现为不同的曲线,所以它不是一条曲线,而是一个曲线系统(图6-2、图6-3)。正态分布可用符号N (μ,σ)表示,不同的μ和σ,则有不同的曲线,因此正态分布曲线是一系列的曲线。
3.正态分布曲线与横轴间的总面积为1(图6-4)
区间µ±1σ 面积或概率68.26%
µ±2σ 95.45%
µ±3σ 99.73%
µ±1.96σ 95%
µ±2.58σ 99% 图6-2 σ相同,μ不同时的三条正态分布曲线 图6-3 σ不同,μ相同时的三条正态分布曲线
(二)正态分布的标准化 正态分布的标准化,是将观测值x 的离均差(x -μ)以标准差σ为单位进行度量,所得的随机变数称为u ,即:
x u μ
σ-=
随机变数u 也服从正态分布,且平均数μ=0、标准差σ=1。统计学上把μ=0、σ=1的正态分布称为标准正态分布,记作N (0,1)。标准正态分布只有一条曲线,如图6-5。
-3σ -2σ -1σ μ +1σ +2σ +3σ 图6-4 正态分布的三个常用概率 u
图6-5 标准正态分布图
(三)正态分布的概率计算
正态分布在某个区间上的概率在统计上经常用到,如果直接计算需要利用该随机变量的概率密度函数在该区间上的积分(即函数分布曲线下某个区间的面积)来求得。而正态分布的概率函数较为复杂,积分的计算又较为困难,这里介绍正态分布概率计算的两种简便方法。
1.利用计算机软件来计算
本书实训部分介绍了用Excel所提供的粘贴函数进行计算,参看实训七。
2.利用标准正态分布累积函数值表
附表1列出了标准正态分布函数F N(u)在(-∞,u)区间内取值的概率,要计算标准正态分布某区间的概率,直接查表即可。
[例6.3]随机变数u服从标准正态分布N(0,1),试计算(1) P(u≤0.35)(2) P(u≥1.26)(3) P(0.35≤u≤1.26)。
解:查附表1得:
P(u≤0.35)=0.6368
对于P(u≥1.26)不能直接查表,根据正态分布的对称性,P(u≥1.26)与1- P(u≤1.26)是相等的,而P(u≤1.26)=0.8962,所以有:
P(u≥1.26)=1- P(u≤1.26)=1-0.8962=0.1038
根据图6-6,P(0.35≤u≤1.26)= P(u≤1.26)-P(u≤0.35)=0.8962-0.6368=0.2594
图6-6 P(0.35≤u≤1.26)的概率
下面是二个最常用的标准正态分布的概率值,望同学们理解并熟记。
P(-1.96≤u≤1.96)=0.95
P(-2.58≤u≤2.58)=0.99
对于一般正态分布N(μ,σ)的随机变量X,要计算其在某个区间上的概率,需先将它化为标准正态分布N(0,1)的随机变量u,然后利用标准正态分布累积函数表查出结果。
[例6.4]有一玉米果穗长度的正态总体,其平均数μ=20cm,标准差σ=3.4cm,试计算以下区间的概率:(1)x1≥25cm (2)x2≤13cm (3) 13cm≤x3≤25cm
解:首先将x值换算成u值:
1 12520
1.47 3.4
x u
μ
σ
--
===
2 21320
2.06
3.4
x u
μ
σ
--
===-
查附表2,P(u1≤1.47)=0.92922
P(u2≤-2.06)=0.01970
P(x1≥25)= P(u1≥1.47)=1- P(u1≤1.47)=1-0.92922=0.07078 P(x2≤13)=P(u2≤-2.06)=0.01970
P(13≤x3≤25)=P(-2.06≤u≤1.47)= P(u1≤1.47)- P(u2≤-2.06)