正态分布资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章正态分布
一、教学大纲要求
正态分布
正态分布
normal distribution
一种概率分布。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。遵从正态分布的随机变量的概率规律为取μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
正态分布最早由 A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。
生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
正态分布应用最广泛的连续概率分布,其特征是“钟”形曲线。
设一组数据x1,x2,x3,…xn,各数据与它们的平均数为X的差的平方分别是(x1-X)²、
(x2-X)²、那么我们用它们的平均数,即用:
S²=1/n[(x1-X) ²+(x2-X) ²+(x3-X) ²+…]
来衡量这组数据的波动大小,并把它叫做这组数据的方差,一组数据方差越大,说明这组数据波动越大。为什么要这样定义方差?在表示各数据与其平均数的偏离程度时,为了防止正偏差与负偏差的相互抵消。
为什么对各数据与其平均数的差不取绝对值,而要将它们平方?这主要是因为在很多问题里,含有绝对值的式子不便于运算,且在衡量一组数据波动大小的“功能”上,方差更强些;为什么要除以个数n ,就是为了消除数据个数的影响。
(一)正态分布
1.正态分布
若X 的密度函数(频率曲线)为正态函数(曲线)
2.正态分布的特征
服从正态分布的变量的频数分布由μ、σ完全决定。
(1)μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以x μ=为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ。
(2)σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
(二)标准正态分布
1.标准正态分布是一种特殊的正态分布,标准正态分布的0=μ,12
=σ ,通常用u
(或Z )表示服从标准正态分布的变量,记为u ~N (0,2
1)。
2.标准化变换:σ
μ
-=
X u ,此变换有特性:若X 服从正态分布),(2σμN ,则u 就服
从标准正态分布,故该变换被称为标准化变换。
3. 标准正态分布表
标准正态分布表中列出了标准正态曲线下从-∞到u 范围内的面积比例()u Φ。 (三)正态曲线下面积分布
1.实际工作中,正态曲线下横轴上一定区间的面积反映该区间的例数占总例数的百分比,或变量值落在该区间的概率(概率分布)。不同),(21X X 范围内正态曲线下的面积可用公式3-2计算。
)()(21
12)
22(2)(2
1
u u dx e
D X X X Φ-Φ==--⎰
σμπ
σ (3-2)
1212X X u u μ
μ
σ
σ
--=
=
其中, , 。
2.几个重要的面积比例
X 轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间σμ±内的面积为68.27%,横轴区间σμ64.1±内的面积为90.00%,横轴区间σμ96.1±内的面积为95.00%,横轴区间
σμ58.2±内的面积为99.00%。
(四)正态分布的应用
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,
呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式(3-2)估计任意取值12(,)X X 范围内频数比例。
2. 制定参考值范围
(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应熟练掌握。
表3-1 常用参考值范围的制定
概率
(%) 正态分布法 百分位数法
双侧 单 侧 双侧
单侧
下 限 上 限 下 限 上 限
90 95
5
~P P 10
P 90
P 95 S X 96.1± S X 64.1- S X 64.1+ 5.975.2~P P 5P 95P 99 S X 58.2±
S X 33.2-
S X 33.2+
5.995.0~P P
1P
99P
3. 质量控制:为了控制实验中的测量(或实验)误差,常以S X 2±作为上、下警戒值,以S X 3±作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态分布。
4. 正态分布是许多统计方法的理论基础。t 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。
三、典型试题分析
1.正态曲线下、横轴上,从均数到∞+的面积为( )。
A .95%
B .50%
C .97.5%
D .不能确定(与标准差的大小有关) 答案:B
[评析] 本题考点:正态分布的对称性
因为无论μ,σ取什么值,正态曲线与横轴间的面积总等于1,又正态曲线以μ=X 为对称轴呈对称分布,所以μ左右两侧面积相等,各为50%。
2.若X 服从以μ,σ为均数和标准差的正态分布,则X 的第95百分位数等于( )。 A .σμ64.1- B .σμ64.1+ C .σμ96.1+ D .σμ58.2+ 答案:B
[评析] 本题考点:正态分布的对称性和面积分布规律
正态分布曲线下σμ64.1±范围内面积占90%,则σμ64.1±外的面积为10%,又据正态分布的对称性得,曲线下横轴上小于等于σμ64.1+范围的面积为95%,故X 的第95百分位数等于σμ64.1+。
3.若正常成人的血铅含量X 近似服从对数正态分布,拟用300名正常人血铅值确定99%