概率论与数理统计实践----正态分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布的性质及实际应用举例
正态分布定义:
定义1:设连续型随机变量的密度函数(也叫概率密度函数)为:
式中,μ 为正态总体的平均值;σ 为正态总体的标准差; x 为正态总体中随机抽样的样本值。其中μ 、σ 是常数且σ > 0,则称随机变量ξ 服从参数为μ 、σ 的正态分布,记作ξ ~ N(μ,σ).
定义2:在(1)式中,如果μ = 0,且σ =1,这个分布被称为标准正态分布,这时分布简化为:
(2)正态分布的分布函数
定义3:分布函数是指随机变量X 小于或等于x 的概率,用密度函数表示为:
标准正态分布的分布函数习惯上记为φ ,它仅仅是指μ = 0,σ =1时的值,表示为:
正态分布的性质:
正态分布的变量的频数分布由μ、σ完全决定。
集中性:正态曲线的高峰位于正中央,即均数所在的位置。 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。
u变换:为了便于描述和应用,常将正态变量作数据转换。μ是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以X=μ为对称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。 也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
应用综述 :
1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据
公式即可估计任意取值范围内频数比例。
2. 制定参考值范围
(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后
服从正态分布的指标。
(2)百分位数法 常用于偏态分布的指标。表3-1中两种方法的单双侧界值都应
熟练掌握。
3. 质量控制:为了控制实验中的测量(或实验)误差,常以 作为上、下警戒值,
以 作为上、下控制值。这样做的依据是:正常情况下测量(或实验)误差服从正态
分布。
4. 正态分布是许多统计方法的理论基础。 检验、方差分析、相关和回归分析等
多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服
从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断
方法也是以正态分布为理论基础的。
频数分布
例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数
=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地
18岁男大学生总数的百分数;②分别求X+-1s、X+-1.96s、X+-2.58s范围内18岁男
大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
本例,μ、σ未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分
别代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的
面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该
地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表3。
表3 100名18岁男大学生身高的实际分布与理论分布
分布 x+-s 身高范围(cm) 实际分布人数 实际分布百分数(%)理论分布(%)X+-1s 168.69~176.71 67 67.00 68.27
X +-1.96s 164.84~180.56 95 95.00 95.00
X+-2.58s 162.35~183.05 99 99.00 99.00
医学参考值
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机
误差,呈现为正态或近似正态分布;有些指标(变量)虽服从偏态分布,但经数据转
换后的新变量可服从正态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。
医学参考值范围亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:
(1)正态分布法:适用于正态或近似正态分布的资料。
双侧界值:X+-u(u)^S单侧上界:X+u(u)^S,或单侧下界:X-u(u)^S
(2)对数正态分布法:适用于对数正态分布资料。
双侧界值:lg-1[X(lgx)+-u(u)S(lgx)];单侧上界:lg-1[X(lgx)+u(u)S(lgx)],或单侧下界:lg-1[X(lgx)-u(u)S(lgx)]。
常用u值可根据要求由表4查出。
(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
双侧界值:P2.5和P97.5;单侧上界:P95,或单侧下界:P5。
表4常用u值表
参考值范围(%) 单侧 双侧
80 0.842 1.282
90 1.282 1.645
95 1.645 1.960
99 2.326 2.576
统计的理论基础
如t分布、F分布、分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分布原理来处理。
概率论中最重要的分布
正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气