正态分布的现实应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布的现实应用
摘要:连续型随机变量中,最重要的分布就是正态分布。本文将就正态分布在教育、医学、气象、林分等几个不同领域中的应用展开探讨,并得出正态分布在生活中广泛存在的结果。并且,根据得到的一些现象,我们可以知道理应服从正态分布的现象分布会不一定符合正态分布,这其中有很多的影响因素。
关键词:正态分布教育医学降雨林分
正态分布是最重要的一种概率分布。德国数学家高斯率先将其应用于天文学家研究,故正态分布又叫高斯分布,高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称。这要到20世纪正态小样本理论充分发展起来以后。拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布。从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。适用于服从正态分布指标以及可以通过转换后服从正态分布的指标。为了控制实验中的测量误差,常以作为上、下警戒值,以作为上、下控制值。这样做的依据是:正常情况下测量误差服从正态分布。正态分布是许多统计方法的理论基础。检验、方差分析、相关和线性回归等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的
教育统计学统计规律表明,学生的智力水平,包括学习能力,实际动手能力等呈正态分布。因而正常的考试成绩分布应基本服从正态分布。考试分析要求绘制出学生成绩分布的直方图,以“中间高、两头低”来衡量成绩符合正态分布的程度。其评价标准认为:考生成绩分布情况直方图,基本呈正态曲线状,属于好,如果略呈正或负的态状,属于中等,如果呈严重偏态或无规律,就是差的。生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。从概率统计规律看,“正常的考试成绩分布应基本服从正态分布”是正确的。但是必须考虑人与物的本质不同,以及教育的有所作为可以使“随机”受到干预,用曲线或直方图的形状来评价考试成绩就有失偏颇。现在许多教育专家已经通过实践论证,教育是可以大有作为的,可以做到大多数学生及格,而且多数学生可以得高分,考试成绩曲线是偏正态分布的。但是长期受到“中间高、两头低”标准的影响,限制了教师的作为,抑制了多数学生能够学好的信心。这是很大的误会。通常正态曲线有一条对称轴。当某个分数或分数段的考生人数最多时,对应曲线的最高点,是曲线的顶点。该分数值在横轴上的对应点与顶点连接的线段就是该正态曲线的对称轴。考生人数最多的值是峰值。我们注意到,成绩曲线或直方图实际上很少对称的,称之为峰线更合适。
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量,以及实验中的随机误差,呈现为正态或近似正态分布;有些指标虽服从偏态分布,但经数据转换后的新变量可服从正
态或近似正态分布,可按正态分布规律处理。其中经对数转换后服从正态分布的指标,被称为服从对数正态分布。医学参考值范围亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。
在气候统计诊断和预测中,大多数诊断方法和预测模型都是建立在假设气候变量是正态分布的前提下进行的。因此,对于气候变量是否为正态分布的检验,不仅很有必要而且很重要。在以往对气象诸要素的统计特性研究表明:月平均气温、多雨地区的年降水量一般近似服从正态分布,而月、季降水量一般不服从正态分布。目前对月、季降水量的分析的预测中对此并不很重视。研究结果表明,我国境内160 个代表测站月降水量的统计分布具有一定的季节性和区域性特点。粤西的降水量非常丰富,有必要对粤西地区的降水量进行正态分布检验。对基本符合正态分布的地区,可直接使用原始序列进行降水演变规律研究和未来的演变趋势预测研究,对于偏离正态分布的地区,必须将原始序列进行正态化处理。西地区地处热带和南亚热带的过渡带,受季风影响显著,雨日多,雨量丰沛,年降水量均在1 000 mm 以上,但80%以上的降水量集中在汛期的4~9 月。湛江年均降水量1 604.6mm,电白1 580.7 mm,雷州1 167.9 mm,而汛期降水量占全年比例分别为81.8%、81.0%和81.6%。可见粤西地区降水量的时空分布很不均衡。雷州站降水量与其它台站相比降水量偏少,与老挝干热风有着密不可分的联系。雷州处于粤西最南端,西南季风时期,受老挝干热风的影响,雷州多晴朗高温天气,日最高气温≥35.0 ℃的日数比其它各台站明显偏多,所以相对而言,雷州比湛江和电白降水量要少。用式y = 3x 对数据进行变换,变换后重新计算,可见变换后雷州各月、季、汛期和年降水量都近似服从正态分布,湛江除6 月降水量不服从外,其它各月、季、汛期和年降水量都近似服从正态分布。而电白变换后5、10 月、冬季和汛期降水量仍不服从正态分布,其它月、季均服从正态分布。90%以上的月、季降水量经变换后,均服从正态分布,只有个别站个别月、季降水量不服从正态分布,应用此种方法能够有效地解决粤西地区降水量的正态化问题。对变换后仍不服从正态分布的月份和季度尝试进行变换。经y = ln x 变换后,解决了湛江站6 月降水量和电白汛期降水量的正态化问题,但此种方法有一定局限,因为对数的性质决定,降水量为0 的月份无法使用此方法。那么可以利用其他变换加以补充,变换后电白站5、10 月降水量和冬季降水量均服从正态分布。可见,虽然粤西地区降水量基本不服从正态分布,但只要采取了适当的方法。
无论是在林业理论上还是在调查实践当中,林分直径分布是最为基本、最为重要的林分结构。因为林分内各种大小直径的树木的分布状态,将直接影响树木的树高、干形、材积、材种及树冠等因子的变化。并且它也是经营管理森林资源的重要指标和许多森林经营技术及测树制表技术理论的依据。所以对庞泉沟自然保护区主要树种直径分布准确的拟合是该区林业调查研究的前提。为此,根据确保均方误差和损失函数最小的思路出发,对庞泉沟自然保护区华北落叶松、油松、山杨、白桦、辽东栎等 5 种直径总体分布服从正态分布的主要树种,用极大似然估计法和最优同变估计法对总体的期望和方差进行估计。通过对这两种估计方法的分析与比较,可得到一种对林分直径分布拟合更为可靠的估计量。最后求出直径服从正态分布树种的函数表达式,并对该树种直径进行了预测。通过直径分布的曲线形状也可以确定它们是否服从正态分布。把华北落叶松、油松、山杨、白桦、辽东栎各个径阶的株数作为纵坐标, 直径为横坐标作曲线图, 可得到直径分布图。曲线分布的趋势来看, 华北落叶松、油松、山杨、白桦所对应的曲线近似于正态分布曲线。都是形成一条以林分算术平均直径为峰点、