正态分布的前世今生(完整版)
正态分布的发展史800字
正态分布的发展史800字正态分布又被称之为高斯分布,其分布由二项分布发展而来,历史上数学家们主要从中心极限定理和误差分析两方面研究出一些影响至今的成果。
中心极限定理的主推人为拉普拉斯,其影响领域主要集中在概率论。
误差分析的主推人为高斯,其影响领域主要在数理统计。
如果说19世纪是正态分布在统计学中独领风骚的话,20世纪则是数理统计学蓬勃发展、百花齐放的时代。
1901年,高尔顿和他的学生卡尔·皮尔逊(KarlPearson)、韦尔登(W。
F。
RWeldon)创办《生物计量》(Biometrika)杂志,成为生物统计学派的一面旗帜,引导了现代数理统计学的大发展。
统计学的重心逐渐由欧洲大陆向英国转移,使英国在以后几十年数理统计学发展的黄金时代充当了领头羊。
在20世纪以前,统计学所处理的数据一般都是大量的、自然采集的,所用的方法以拉普拉斯中心极限定理为依据,总是归结到正态。
到了19世纪末期,数据与正态拟合不好的情况也日渐为人们所注意:进入20世纪之后,人工试验条件下所得数据的统计分析问题,日渐被人们所重视。
由于试验数据量有限,那种依赖于近似正态分布的传统方法开始招致质疑,这促使人们研究这种情况下正确的统计方法问题。
在这个背景之下,统计学三大分布χ2分布、t分布、F分布逐步登上历史舞台。
这三大分布现在的理科本科生都很熟悉。
在历史上,这三个分布和来自英国的现代数理统计学的三大剑客有着密切的关系。
第一位剑客就是卡尔·皮尔逊(KarlPearson),手中的宝剑就是χ2分布。
χ2分布这把宝剑最早的锻造者其实是物理学家麦克斯韦,他在推导空气分子的运动速度的分布的时候,发现分子速度在三个坐标轴上的分量是正态分布,而分子运动速度的平方v2符合自由度为3的χ2分布。
麦克斯韦虽然造出了这把宝剑,但是真正把它挥舞得得心应手、游刃有余的是皮尔逊。
在分布曲线和数据的拟合优度检验中,χ2分布可是一个利器,而皮尔逊的这个工作被认为是假设检验的开山之作。
从数理统计简史中看正态分布的历史由来
从数理统计简史中看正态分布的历史由来第四节、从数理统计简史中看正态分布的历史由来本节将结合数理统计学简史一书,从早期概率论的发展、棣莫弗的二项概率逼近讲到贝叶斯方法、最小二乘法、误差与正态分布等问题,有详有略,其中,重点阐述正态分布的历史由来。
相信,你我可以想象得到,我们现在眼前所看到的正态分布曲线虽然看上去很美,但数学史上任何一个定理的发明几乎都不可能一蹴而就,很多往往经历了几代人的持续努力。
因为在科研上诸多观念的革新和突破是有着很多的不易的,或许某个定理在某个时期由某个人点破了,现在的我们看来一切都是理所当然,但在一切没有发现之前,可能许许多多的顶级学者毕其功于一役,耗尽一生,努力了几十年最终也是无功而返。
如上文前三节所见,现在概率论与数理统计的教材上,一上来介绍正态分布,然后便给出其概率密度分布函数,却从来没有说明这个分布函数是通过什么原理推导出来的。
如此,可能会导致你我在内的很多人一直搞不明白数学家当年是怎么找到这个概率分布曲线的,又是怎么发现随机误差服从这个奇妙的分布的。
我们在实践中大量的使用正态分布,却对这个分布的来龙去脉知之甚少。
本文接下来的第四节将结合陈希儒院士的《数理统计学简史》及“正态分布的前世今生”为你揭开正态分布的神秘面纱。
4.1、正态分布的定义上文中已经给出了正态分布的相关定义,咱们先再来回顾下。
如下两图所示(来源:大嘴巴漫谈数据挖掘):相信,经过上文诸多繁杂公式的轰炸,读者或有些许不耐其烦,咱们接下来讲点有趣的内容:历史。
下面,咱们来结合数理统计简史一书,即正态分布的前世今生系列,从古至今论述正态分布的历史由来。
4.2、早期概率论:从萌芽到推测术4.2.1、惠更新的三个关于期望的定理(一)惠更新的论赌博的计算所谓概率,即指一个事件发生,一种情况出现的可能性大小的数量指标,介于0和1之间,这个概念最初形成于16世纪,说来可能令你意想不到,凡事无绝对,早期很多概率论中的探讨却与掷骰子等当今看来是违法犯罪的赌博活动有着不可分割的联系,可以说,这些赌博活动反而推动了概率论的早期发展。
正态分布详解(很详细)
f (x)
1
e ,
(
x )2 2 2
x
2
用求导的方法可以证明, x=μσ
为f (x)的两个拐点的横坐标。
这是高等数学的内容,如果忘记了,课下 再复习一下。
根据对密度函数的分析,也可初步画出正 态分布的概率密度曲线图。
回忆我们在本章第三讲中遇到过的 年降雨量问题,我们用上海99年年降雨 量的数据画出了频率直方图。
定理1
设 X ~ N (, 2 ) ,则Y X ~N(0,1)
根据定理1,只要将标准正态分布的分布 函数制成表,就可以解决一般正态分布的概 率计算问题.
四、正态分布表
书末附有标准正态分布函数数值表,有了
它,可以解决一般正态分布的概率计算查表.
(x) 1
x t2
e 2 dt
2
表中给的是x>0时, Φ(x)的值.
下面我们在计算机上模拟这个游戏: 街头赌博
高尔顿钉板试验
平时,我们很少有人会去关心小球 下落位置的规律性,人们可能不相信 它是有规律的。一旦试验次数增多并 且注意观察的话,你就会发现,最后 得出的竟是一条优美的曲线。
高 尔 顿 钉 板 试 验
这条曲线就近似我们将要介 绍的正态分布的密度曲线。
正态分布的定义是什么呢?
由于连续型随机变量唯一地由它 的密度函数所描述,我们来看看正态 分布的密度函数有什么特点。
请看演示 正态分布
二、正态分布 N (, 2 ) 的图形特点
正态分布的密度曲线是一条关于 对
称的钟形曲线. 特点是“两头小,中间大,左右对称”.
正态分布 N (, 2 ) 的图形特点
决定了图形的中心位置, 决定了图形
P(|Y | 3 ) 0.9974
关于正态分布的小故事
关于正态分布的小故事
正态分布的故事始于1772年,当时苏格兰数学家棣莫弗在研究二项分布的概率时,发现二项分布的极限分布是正态分布。
然后,法国天文学家和数学家布丰在1781年提出了一种方法来模拟产生正态分布,他在实验中使用了投掷硬硬币的方法,后来这种方法被称为“布丰投币法”。
正态分布在实际生活中有广泛的应用。
例如,人类的许多特征,如身高、体重、智商等,都遵循正态分布。
此外,科学实验和工业生产中一些现象的分布也往往呈现正态分布。
例如,工业生产中产品的尺寸、化学反应中的分子能量分布等。
在科学研究领域,正态分布也是非常重要的工具。
例如,在生物学和医学中,许多实验结果和数据都呈现出正态分布的特征。
在物理学中,许多自然现象的分布也符合正态分布。
总的来说,正态分布是一种非常有用的数学工具,它不仅在统计学和概率论中有广泛的应用,而且在其他科学领域和实际生活中也有着广泛的应用。
正态分布进入统计学的历史演化(基础数学专业优秀论文)
probabilit)r model of趾alyzing statistical da饥iIl 1 730s,De MoiVre injti“1y fouIld t11e nonIlal
cllrve wrh∞he calculated锄approxilIlation of a probabili劬but for cenain reasons it didn’t
etc;ent谢ng me middle of l 9th c饥tu阱t11e work of Quetelet i11 the social sphere and Galton’s
research in the field ofbiology made the dis缸伯ution eXpalld to maIly natural auld social science
本声明的法律后果由本人承担。
论文作者(签名):吴孑z庄
年月 日
指导教师确认(签名): 年
峨日 .易
学位论文版权使用授权书
本学位论文作者完全了解河北师范大学有权保留并向国家有关部门或机构送交学位 论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河北师范大学可以将学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇 编学位论文。
me 1 9m celltL叫to me 1 93 0s).According to the deVelopment backgrounds of di仃erent stages, 恤s thesis百ves an elaborate analysis砒1d a sⅧ吼ary on me eVolution processes and the iIllportant work of the r印resentatiVe c_haracters.Synchronously,it c1砌fies me interaction be帆ecIl廿le distribution and its related theories i11 diff-erent stages and undedines its sinuosity 舶‘m generation to man鹏,t11e delicacy of me progress pushed by techique innoVation and
概率论与数理统计之正态分布
转化为标准正态分布
P(8100 Yn 10000)
标准化
P 2.5
Yn np np(1 p)
50
(50) (2.5) 1 0.9938 0.0062
37
例:某电站供应10000户居民用电,设在高峰时每户用电的概率为0.8 各用户用电多少是相互独立的,求:
(1)同一时刻有8100户以上用电的概率; (2)若每户用电功率为100W,则电站至少需要多少电功率才能保证以
1
z2
e 10 , z R
10
§4.4 二维正态分布
定义: 二维随机变量 (X ,Y )服从二维正态分布,记作
(
X
,Y
)
~
N(x
,
y
,
2 x
,
2 y
,
r)
其中 x, y ,x 0, y 0, r( r 1) 是参数.
26
§4.4 二维正态分布
定理1:设二维连续随机变量
(X
,Y
)
~
N(x
,
Q /100 8000 1.96
Q 807840
38
40
39
15-16,五. 设每个零件上的瑕疵点个数服从泊松分布P(1),现 随机抽取100个零件,根据中心极限定理,求100个 零件上总瑕疵点个数不多于120个的概率.
正态分布的前世今生
一、邂逅,正态曲线的首次发现 棣莫弗—拉普拉斯中心极限定理,4.5节
二、寻找随机误差分布的规律(正态分布的确立) 三、正态分布的各种推导 四、正态分布开疆扩土 五、正态魅影
正态分布性质,4.3节
§4.1 正态分布的概率密度与分布函数
定义:设随机变量 X 的概率密度为
正态分布的由来
正态分布的由来(转)正态分布是最重要的一种概率分布。
正态分布概念是由德国的数学家和天文学家Moivre 于1733年受次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布.高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。
高斯是一个伟大的数学家,重要的贡献不胜枚举。
但现今德国10马克的印有高斯头像的钞票,其上还印有正态分布的密度曲线。
这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。
在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。
这要到20世纪正态小样本理论充分发展起来以后。
拉普拉斯很快得知高斯的工作,并马上将其与他发现的中心极限定理联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。
这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成。
后来到1837年,海根(G. Hagen)在一篇论文中正式提出了这个学说。
其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的“元误差”之和,每只取两值,其概率都是1/2,由此出发,按狄莫佛的中心极限定理,立即就得出误差(近似地)服从正态分布。
拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。
因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及最小二乘估计的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性)为出发点。
但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。
正态分布——概念、特征、广泛应用
正态分布——概念、特征、广泛应用一、概念指变量的频数或频率呈中间最多,两端逐渐对称地减少,表现为钟形的一种概率分布。
正态分布的由来正态分布是最重要的一种概率分布。
正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss(Carl Friedrich Gauss,1777—1855)率先将其应用于天文学家研究,故正态分布又叫高斯分布。
高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将最小二乘法的发明权归之于他,也是出于这一工作。
高斯是一个伟大的数学家,重要的贡献不胜枚举。
在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。
但随着各种理论的深入研究,高斯理论的卓越贡献日显重要。
1.正态分布的重要性正态分布是概率统计中最重要的一种分布,其重要性我们可以从以下两方面来理解:一方面,正态分布是自然界最常见的一种分布。
一般说来,若影响某一数量指标的随机因素很多,而每个因素所起的作用都不太大,则这个指标服从正态分布。
2.正态曲线及其性质3.标准正态曲线标准正态曲线N(0,1)是一种特殊的正态分布曲线,以及标准正态总体在任一区间(a,b)内取值概率。
4.一般正态分布与标准正态分布的转化由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。
只要会用它求正态总体在某个特定区间的概率即可。
5.“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。
这种认识便是进行推断的出发点。
关于这一点我们要有以下两个方面的认识:一是这里的“几乎不可能发生”是针对“一次试验”来说的,因为试验次数多了,该事件当然是很可能发生的;二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时,我们也有5%的犯错误的可能。
二、正态分布的特征均数处最高以均数为中心,两端对称永远不与x轴相交的钟型曲线有两个参数:均数——位置参数,标准差——形状(变异度)参数。
正态分布的前世今生
正态分布的前世今生(六)——正态分布的近代发展时间:2012-11-13 22:10来源:我爱自然语言处理作者:rickjin 围观:646次【编者注】几乎所有的经济模型都有假设前提,学过计量经济学的同学都知道古典假设,而正态分布又在假设中占有十分重要的作用,小编偶然间在我爱自然语嫣处理这个博客中发现了《正态分布前世今生》的系列文章,文章以名人、故事为主线简单的描述了正态分布的前世今生,这里特推荐给大家。
花开两朵,各表一枝。
上面说了围绕正态分布在概率论中的发展,现在来看看正态分布在数理统计学中发展的故事。
这个故事的领衔主演是Adolphe Quetelet和高尔顿(Galton)。
由于高斯的工作,正态分布在误差分析迅速确定了自己的定位,有了这么好的工具,我们可能拍脑袋就认为,正态分布很快就被人们用来分析其它的数据,然而事实却出乎我们的意料,正态分布进入社会领域和自然科学领域,可是经过一番周折的。
首先我要告诉大家一个事实:误差分析和统计学是两个风马牛不相及的两个学科。
当然这个事实存在的时间是19世纪初之前。
统计学的产生最初是与“编制国情报告”有关,主要服务于政府部门。
统计学面对的是统计数据,是对多个不同对象的测量;而误差分析研究的是观测数据,是对同一个对象的多次测量。
因此观测数据和统计数据在当时被认为两种不同行为获取得到的数据,适用于观测数据的规律未必适用于统计数据。
19世纪的统计数据分析处于一个很落后的状态,和概率论没有多少结合。
而概率论的产生主要和赌博相关,发展过程中与误差分析紧密联系,而与当时的统计学交集非常小。
将统计学与概率论真正结合起来推动数理统计学发展的便是我们的统计学巨星Quetelet。
Quetelet这名字或许不如其它数学家那么响亮,估计很多人不熟悉,所以有必要介绍一下。
Quetelet是比利时人,数学博士毕业,年轻的时候曾追谁拉普拉斯学习过概率论。
此人学识渊博,涉猎广泛,脑门上的桂冠包括统计学家、数学家、天文学家、社会学家、国际统计会议之父、近代统计学之父、数理统计学派创始人。
正态分布的背景及正态分布概率密度的推导过程
正态分布的背景及正态分布概率密度的推导过程一、背景介绍正态分布是概率论和统计学中最重要的分布之一,也称作高斯分布或钟形曲线。
它广泛应用于自然科学、社会科学和工程领域。
正态分布的背景早在18世纪即开始引起人们的兴趣,由德国数学家高斯在他的研究中首次提出,并开创了概率论的新篇章。
正态分布的定义如下:若连续型随机变量X的概率密度函数为f(x) = (1/σ√(2π)) * e^(-(x-μ)²/2σ²)其中,μ是均值,σ是标准差,e是自然对数的底数。
二、正态分布概率密度函数的推导过程正态分布概率密度函数的推导可通过以下几个步骤完成:2.1 正态分布基本概念在推导正态分布的概率密度函数之前,我们先来了解一些正态分布的基本概念。
2.1.1 均值均值(μ)是正态分布曲线的中心位置,也即期望值。
正态分布的均值位于曲线的对称轴上。
2.1.2 方差方差(σ²)是一种描述数据变化程度的统计量。
方差越大,数据的分布越分散。
方差的平方根被称为标准差(σ)。
2.2 推导过程为了推导正态分布的概率密度函数,我们需要用到一些数学工具,如积分和高斯积分等。
2.2.1 标准正态分布标准正态分布是均值为0,标准差为1的正态分布。
对于标准正态分布,我们记为Z,其概率密度函数为:φ(x) = (1/√(2π)) * e^(-x²/2)2.2.2 正态分布与标准正态分布的关系对于正态分布的任意随机变量X,可以通过线性变换将其标准化为标准正态分布。
线性变换的公式如下:Z = (X-μ)/σ其中,Z是标准正态分布的随机变量,X是正态分布的随机变量,μ是均值,σ是标准差。
2.2.3 推导过程利用线性变换的公式,我们可以将正态分布的概率密度函数转换为标准正态分布的概率密度函数。
具体推导过程如下:1.根据线性变换的公式,可以得到X和Z的关系式:X = Zσ + μ2.利用概率密度函数的性质,将Z的概率密度函数代入到X的概率密度函数中,得到:f(x) = φ((x-μ)/σ) * (1/σ)3.将标准正态分布的概率密度函数代入到上式中,可以得到:f(x) =(1/σ√(2π)) * e^(-(x-μ)²/2σ²)至此,我们完成了正态分布概率密度函数的推导过程。
追本溯源,读懂正态分布
追本溯源,读懂正态分布正态分布,又称高斯分布,是统计学中最为重要的分布之一,被广泛应用于自然科学、社会科学、工程技术等领域。
正态分布在描述随机变量分布以及各种现象的分布规律性上具有重要的作用,因此对于正态分布的理解和应用显得尤为重要。
本文将从正态分布的基本概念、性质和应用领域进行探讨,帮助读者追本溯源,读懂正态分布。
正态分布最早由高斯在天文观测数据分析时发现,因此得名高斯分布。
正态分布的数学表达形式为:\[f(x) = \frac{1}{\sqrt{2 \pi \sigma }} \exp(-\frac{(x-\mu)^2}{2\sigma^2})\]μ是分布的均值,σ是分布的标准差。
正态分布曲线呈钟形,左右对称,且两头渐进于水平轴。
正态分布的均值、方差决定了分布的位置和形状,因此称为分布的两个参数。
正态分布的均值决定了分布的位置,方差决定了分布的宽度。
当μ=0, σ=1时,称为标准正态分布。
正态分布的特点包括:1. 对称性。
正态分布是左右对称的,均值处为对称轴。
2. 高峰度。
正态分布的高峰度较高,尾部较为平缓。
3. 可加性。
若两个独立的正态随机变量相加,其和仍为正态分布。
正态分布的重要性在于它具有广泛的适用性。
许多自然现象和社会现象都可以用正态分布来描述。
人的身高、智力分数、体重等常常呈现正态分布。
正态分布在工程技术领域也有着重要的应用,比如电子元件的尺寸分布、测量误差的分布等都可以用正态分布来描述。
深入理解正态分布对于数据分析和建模具有重要的意义。
在实际应用中,正态分布通常用来描述随机变量的概率分布,以及进行统计推断。
在概率论中,正态分布被广泛应用于连续型随机变量的建模和分析。
在统计推断中,许多参数估计和假设检验的方法都基于对正态分布的假设。
对于正态分布的研究和理解对于数据分析和统计推断都至关重要。
正态分布还具有一些重要的性质。
首先是中心极限定理。
中心极限定理指出,若随机变量的样本容量足够大,那么其样本均值的分布将近似服从正态分布。
正态分布
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是 一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方 面有着重大的影响力。若随机变量X服从一个数学期望为μ、方差为σ^2的高 斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位 置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为 钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
• 书中115页说极大似然估计是Fisher提出来的,实际上, 最早是高斯提出,后来Fisher把它进一步发展了, 高斯还 因此“算”出了正态分布。然后又和最小二乘法建立了联 系。高斯的贡献真是极其大啊。 • 首先假设:极大似然估计值=算数平均值 • 然后高斯证明了所有的概率密度函数中,唯一满足这个性 质的就是: 2
• 高尔顿钉板:
• 93页课本: 独立同分布的中心极限定理:
X
i 1
n
i
n N (0,1)
n
多么奇妙的性质,随意的一个概率分布中生成的随机变量, 在序列和(或者等价的求算术平均)的操作之下,表现出如 此一致的行为,统一的规约到正态分布。 概率学家们进一步的研究结果更加令人惊讶,序列求和最 终要导出正态分布的条件并不需要这么苛刻,即X1,⋯,Xn 并不独立,也不具有相同的概率分布形式,很多时候他们 求和的最终归宿仍然是正态分布。
• 致谢:
• 正态分布的今世前世今生- rickjin(靳志辉) • 伽玛分布参数的极大似然估计数值解法-高等函授学报:自然科学版2011年 第5期 • 科学松鼠会创办者-姬十三 • 香港浸会大学数学讲座教授-汤涛 • 数理统计学简史-陈希孺 • Stigler, Stephen M. The History of Statistics: The Measurement of Uncertainty before 1900 • 高斯,皮尔逊,麦克斯韦,惠更斯、帕斯卡、费马、贝努利,棣莫弗, 拉普拉斯,费希尔,皮尔逊,戈塞特等等。
正态分布的由来
正态分布的诞生正态分布,也称“常态分布”,是概率论与数理统计中最重要的分布之一。
正态分布最早由棣莫弗在求二项式的渐近公式中得到。
本文将对棣莫弗得到“正态分布”的过程进行介绍。
铺垫设某事件A 的概率p 未知,在同样条件下独立地进行N 次试验或观察,发现事件A 发生X 次,X N 称为事件A 在这N 次试验中的频率。
由贝努利大数定律,当N →∞时,频率X N 依概率收敛于p 。
贝努利并且试图解决如下问题:给定ε>0和c >0(ε很小而c 很大),为使事件 X N −p ≤ε的概率不小于c c +1,试验次数N 至少须达到多少。
贝努利提供的答案不够令人满意。
与此同时,尼克拉斯也提供了一个答案,记P d =P X −Np ≤d (1)尼克拉斯的做法是固定N 去估计P d ,,而不是从设定的对P d 值要求出发去估计N 。
他得到公式:P d ≥1−max a ,b其中,a = N 1−p −d +1 Np 2d b =Np −d +1 N 1−p 2 N 1−p −d N 1−p +1 p d 为要使P d ≥cc +1,则必须找最小的N 使满足a ≤ c +1 −1,b ≤c +1 −1注意到a 和b 的计算依赖于p ,而在实际问题中p 未知,上述比较是将p 作为已知代入算得,因此还不能算是圆满。
实际中计算a 、b 的一个方法是用X N 代替p ,但所造成的误差不好估计。
尼克拉斯的解仍较为粗糙,究其原因,P d 是一些二项概率之和,在当时的条件下,缺乏有效的处理这种和的方法。
研究原因1721年.有一个名叫亚历山大•喀明的人向棣莫弗提出一个问题:A 、B 二人在某甲家赌博,每局A 获胜的概率为p ,B 获胜的概率为q=1-p ;赌N 局,以X 记A 胜局数。
约定:若X ≥Np ,则A 付给甲X −Np 元;若X <Np ,则B 付给甲 N −X −Nq =Np −X 元。
问甲所得的期望值是多少?按定义,此期望值为D N =E X −Np = i −Np N i =1b (N ,p ,i ),这里b N ,p ,i 为二项概率C N i p i 1−p N−i 。
正态分布简史
1、棣莫弗的二项式正态逼近
二、正态分布
1733年,狄莫弗的二项分布正态逼近的研究, 首次引入了两个事物:正态曲线和中心极限定理。
狄莫弗中心极限定理, 是中心极限定理的最早特例, 40 年 后拉普拉斯建立了中心极限定理较一般的形式, 独立和中 心极限定理的最一般形式到20 世纪三十年代才完成。 这个定理, 以及高斯关于最小二乘法与正态分布的联系的 重大发现,大大促进了正态分布在统计分析中的作用, 先 是在天文及测地数据的分析中, 其次由魁特奈特等拓展到 社会统计方面, 最后因高尔顿在19 世纪后期的工作而拓 展到生物数据方面, 20世纪, 由于费歇尔等的正态小样本 抽样分布的工作以及方差分析方面的工作, 正态分布更牢 固地占据了统计分析中的主导地位。
3、正态分布向近代统计学的引入
二、正态分布
凯特勒在自己的研究工作中,把统计学与概率论结合起 来。他首次在社会科学的范畴内提出了他的大数律思想, 并把统计学的理论建立在大数律的基础上,认为一切社 会现象也受到大数律的支配。他的这种统计思想曾盛行 一时,至今还有影响。
统计学不是一门孤立的学科,而是研究其它学科的工具。 当科学家把注意力转向生物科学时,统计学有了一次大 的发展。在凯特勒的启发下,高尔顿最早把统计方法应 用于生物学,他继续研究和推广正态曲线,提出了中位 数、四分位数、百分位数及四分位偏差等概念,并创立 了回归分析,对英国生物统计学派的兴起起到了奠基性 作用。
2、正态分布从误差论中的重生
二、正态分布
误差论的基本问题是: 随机测量误差应服从怎样的概率规律,即有怎样 的概率分布。 这个问题首先是在天文学中提出的。
丹麦统计史学家哈尔德在其著作《1750年以前概 率统计及其应用史》中,指出:“天文学自古代 至18世纪是应用数学中最发达的领域,观测和数 学天文学,给出了建模及数据拟合的最初例子。 天文学的问题使得人们最早关心使用算术平均的 合理性问题,并从误差分布论的角度来进行考察。
(完整版)正态分布的发展及应用毕业设计
正态分布的发展及应用摘要生活中诸多的经验和理论都表明,我们所处的环境中服从正态分布的事件是极其常见的。
例如:工程中的加工尺寸,人的身高,降雨量等都可以看做是正态分布。
所以在统计学中对于正态分布的使用越来越广泛。
本文是对正态分布的发展以及应用做一些基本的阐述。
正态分布又名高斯分布,德国数学家高斯对于正态分布的形成与发展有着举足轻重的地位。
正态分布从无到有,最后成为数理统计中非常重要的模型大致可分为三个阶段:第一个阶段是形成阶段,18世纪30年代数学家狄莫弗在一个赌博问题的概率计算中意外发现了正态曲线,所以人们也把正态分布的起源归于赌博问题,但由于社会及个人的问题,正态曲线在那时并没都得到很大的发展。
第二个阶段是18世纪中叶正态分布的模型建立,在天文学发展的刺激下,数学家拉普拉斯,高斯对于正态分布又有了新的拓展,让人们逐渐认识到了其在天文,误差领域的应用。
第三阶段19世纪中叶在凯特莱,高尔顿的努力下,使正态分布进入到自然和科学领域,从此进入了统计学的大家庭。
最后本文总结了现阶段正态分布的一些最基本最实用的应用。
【关键词】正态分布狄莫弗拉普拉斯高斯凯特莱Development and Application of the NormalDistributionFengjie xue(Department of mathematics physics and information, Donghai Science &Technology School 316004)AbstractMany life experiences and theories that we normally distributed environment in which the event is extremely common. For example: the size of the project in the process, a person’s height, rainfall and so can be seen as a normal distribution. Therefore, the normal distribution in statistics more widely used. This article is a normal development and application to do some basic exposition.Normal distribution, also known as the Gaussian distribution, the German mathematician Gauss for the formation and development of the normal distribution has a pivotal position. Normal distribution from scratch, eventually became a very important mathematical statistics model can be divided into three stages: the first stage is the formation stage, 18 in the 1930s mathematician Moivre probability calculations in a gambling problem accidentally discovered normal curve, so people have attributed the origin of the normal distribution of gambling problems, but because of social and personal problems, the normal curve at that time did not have agreat development. The second stage is the mid-18th century the normal distribution model, the stimulation of the development of astronomy, mathematician Laplace, Gaussian normal distribution has a new development, so that people come to realize that its in astronomy, application error field. The third stage in the mid-19th century Quetelet, Galton’s efforts to make the normal into the natural and scientific fields, from entering the family statistics. Finally, the paper summarizes some of the most basic and normal stage of practical application.【Keywords】Normal distribution Moivre Laplace Gauss Kettle目录摘要 (I)Abstract........................................................................................................................... I I 1绪论.. (1)1.1正态分布的定义 (1)1.2正态分布的曲线 (1)1.3正态分布与标准正态分布 (2)2.正态分布的起源 (3)2.1 古典统计时期的概率论 (3)2.2 二项式正态逼近——狄莫弗 (4)2.3 为何当时正态分布未能有大发展 (4)3.正态分布的重新出发 (6)3.1 天文中的误差 (6)3.2 误差论的形成 (6)3.2.1 拉普拉斯的概率论 (7)3.2.2 高斯分布 (7)3.3基本误差假设 (8)4.正态分布的近代统计学之路 (9)4.1“近代统计学之父”—凯特莱 (9)4.2 凯特莱对正态曲线的拓展 (10)4.3高尔顿对正态分布的创新 (10)5. 现代统计学中的正态分布 (12)6.正态分布的应用 (13)6.1频数分布 (13)6.2对学生的一些情况进行调查 (13)6.3医学的正常值范围参考 (14)6.4正态分布促进统计学的发展 (14).结束语 (15)参考文献 (16)1 绪论1.1正态分布的定义若随机变量x服从一个位置参数为,尺度函数为,其概率密度函数为()22()2x f x ⎛⎫-μ=- ⎪ ⎪σ⎝⎭则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作X~N (),读作服从N (),或者X 服从正态分布。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
正态分布的前世今生一、正态分布,熟悉的陌生人学过基础统计学的同学大都对正态分布非常熟悉。
这个钟型的分布曲线不但形状优雅, 其密度函数写成数学表达式12π−−√σexp(−(x−μ)22σ2)也非常具有数学的美感。
其标准化后的概率密度函数12π−−√exp(−x22) 更加的简洁漂亮,两个最重要的数学常量 π,e 都出现在了公式之中。
在我个人的审美之中,它也属于 top-N 的最美丽的数学公式之一, 如果有人问我数理统计领域哪个公式最能让人感觉 到上帝的存在,那我一定投正态分布的票。
因为这个分布戴着神秘的面纱,在自然界中无处不 在,让你在纷繁芜杂的数据背后看到隐隐的秩序。
【正态分布曲线】正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。
早年去 过德国的兄弟们还会发现,德国的钢镚和 10 马克的纸币上都留有高斯的头像和正态密度 曲线。
正态分布被冠名高斯分布,我们也容易认为是高斯发现了正态分布,其实不然,不 过高斯对于正态分布的历史地位的确立是起到了决定性的作用。
1【德国马克上的高斯头像和正态分布曲线】 正态曲线虽然看上去很美,却不是一拍脑袋就能想到的。
我们在本科学习数理统计的 时候,课本一上来介绍正态分布就给出密度分布函数,却从来不说明这个分布函数是通过 什么原理推导出来的。
所以我一直搞不明白数学家当年是怎么找到这个概率分布曲线的, 又是怎么发现随机误差服从这个奇妙的分布的。
我们在实践中大量的使用正态分布,却对 这个分布的来龙去脉知之甚少,正态分布真是让人感觉既熟悉又陌生。
直到我读研究生的 时候,我的导师给我介绍了陈希儒院士的《数理统计学简史》这本书,看了之后才了解了 正态分布曲线从发现到被人们重视进而广泛应用,也是经过了几百年的历史。
正态分布的这段历史是很精彩的,我们通过讲一系列的故事来揭开她的神秘面纱。
二、邂逅,正态曲线的首次发现第一个故事和概率论的发展密切相关,主角是棣莫弗(De Moivre)和拉普拉斯 (Laplace)。
拉普拉斯是个大科学家,被称为法国的牛顿;棣莫弗名气可能不算很大,不 过大家应该都熟悉这个名字,因为我们在高中数学学复数的时候我们都学过棣莫弗定理(cosθ+isinθ)n=cos(nθ)+isin(nθ). 古典概率论发源于赌博,惠更斯、帕斯卡、费马、贝努利都是古典概率的奠基人,他们那会研究的概率问题大都来自赌桌上,最早的概率论问题是赌徒梅累在 1654 年向帕斯卡提出的 如何分赌金的问题。
统计学中的总体均值之所以被称为期望(Expectation), 就是源自惠更斯、 帕斯卡这些人研究平均情况下一个赌徒在赌桌上可以期望自己赢得多少钱。
棣莫弗(De Moivre)拉普拉斯 (Laplace)2有一天一个哥们,也许是个赌徒,向棣莫弗提了一个和赌博相关的一个问题:A,B 两 人在赌场里赌博,A,B 各自的获胜概率是 p 和 q=1−p,赌 n 局,若 A 赢的局数 X>np, 则 A 付给赌场 X−np 元,否则 B 付给赌场 np−X 元。
问赌场挣钱的期望值是多少? 问题并不复杂,本质上是一个二项分布,最后求出的理论结果是2npqb(n,p,np),其中b(n,p,i)=(ni)piqn−i是常见的二项概率。
但是对具体的 n,要把这个理论结果实际计算出数值结果可不是 件容易的事,因为其中的二项公式中有组合数.这就驱动棣莫弗寻找近似计算的方法。
与此相关联的另一个问题, 是遵从二项分布的随机变量 X∼B(n,p), 问 X 落在二项分 对于 p=12 的情形,棣莫弗做了一些计算并得到了一些近似结果,但是还不够漂亮,幸 运的是棣莫弗和斯特林(Stirling)处在同一个时代,而且二人之间有联系,斯特林公式是 在数学分析中必学的一个重要公式:(事实上斯特林公式的形式其实是棣莫弗最先发现的, 但是斯特林改进了这个公式,改进的结果为棣莫弗所用)布中心点一定范围的概率 Pd=P(|X−np|≤d)是多少?1733 年,棣莫弗很快利用斯特林公式进行计算并取得了重要的进展。
考虑 n 是偶数 的情形,令二项概率n!∼2πn−−−√(ne)nb(i)=b(n,12,i)=(ni)(12)n通过斯特林公式做一些简单的计算容易得到,于是有b(n2)∼2πn−−−√ ⇒ b(n2+d)b(n2)∼exp(−2d2n). b(n2+d)∼22πn−−−√exp(−2d2n).使用上式的结果,并在二项概率累加求和的过程中近似的使用定积分代替求和,很容 易就能得到3P(∣∣∣Xn−12∣∣∣ ≤cn−√)= ∼ = ∼ ∑−cn√≤i≤cn√b(n2+i)∑−cn√≤i≤cn√22πn−−−√exp(−2i2n) (1)∑−2c≤2in√≤2c12π−−√exp⎛⎝−12(2in−√)2⎞⎠2n−√∫2c−2c12π−−√exp(−x22)d x.看,正态分布的密度函数的形式在积分公式中出现了!这也就是我们在数理统计课本 上学到的二项分布的极限分布是正态分布。
以上只是讨论了 p=12 的情形,棣莫弗也对 p≠12 做了一些计算,后来拉普拉斯对p≠12 的情况做了更多的分析,并把二项分布的正态近似推广到了任意 p 的情况。
这是第一次正态密度函数被数学家勾画出来,而且是以二项分布的极限分布的形式被推导出来的。
熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。
[De Moivre-Laplace 中心极限定理] 设随机变量 Xn(n=1,2...)服从参数为 p 的二 项分布,则对任意的 x,恒有limn→∞P{Xn−Xpnp(1−p)−−−−−−−−√≤x}=∫x−∞12π−−√exp(−t22)dt.我们在大学学习数理统计的时候,学习的过程都是先学习正态分布,然后才学习中心 极限定理。
而学习到正态分布的时候,直接就描述了其概率密度的数学形式,虽然数学上 很漂亮,但是容易困惑数学家们是如何凭空就找到这个分布的。
读了陈希孺的《数理统计 学简史》之后,我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定 理中。
数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的,现代的数 学课本都是按照数学内在的逻辑进行组织编排的,虽然逻辑结构上严谨优美,却把数学问 题研究的历史痕迹抹得一干二净。
DNA 双螺旋结构的发现者之一 James Waston 在他 的名著《DNA 双螺旋》序言中说:“科学的发现很少会像门外汉所想象的一样,按照直接 了当合乎逻辑的方式进行的。
” 棣莫弗给出他的发现后 40 年(大约是 1770),拉普拉斯建立了中心极限定理较一 般的形式,中心极限定理随后又被其它数学家们推广到了其它任意分布的情形,而不限于 二项分布。
后续的统计学家发现,一系列的重要统计量,在样本量 N 趋于无穷的时候,其 极限分布都有正态的形式,这构成了数理统计学中大样本理论的基础。
棣莫弗在二项分布的计算中瞥见了正态曲线的模样,不过他并没有能展现这个曲线的 美妙之处。
棣莫弗的这个工作当时并没有引起人们足够的重视,原因在于棣莫弗不是个统 计学家,从未从统计学的角度去考虑其工作的意义。
正态分布(当时也没有被命名为正态分4布)在当时也只是以极限分布的形式出现,并没有在统计学,尤其是误差分析中发挥作用。
这也就是正态分布最终没有被冠名棣莫弗分布的重要原因。
那高斯做了啥了不起的工作导 致统计学家把正态分布的这顶桂冠戴在了他的头上呢?这先得从最小二乘法的发展说起。
三、最小二乘法,数据分析的瑞士军刀第二个故事的主角是欧拉(Euler),拉普拉斯(Lapalace),勒让德(Legendre)和 高斯(Gauss),故事发生的时间是十八世纪中到十九世纪初。
十七、十八世纪是科学发展 的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的 迅猛发展。
当时的大科学家们都在考虑许多天文学上的问题。
几个典型的问题如下:• 土星和木星是太阳系中的大行星,由于相互吸引对各自的运动轨道产生了影响,许多大数学家,包括欧拉和拉普拉斯都在基于长期积累的天文观测数据计算土星和木星的 运行轨道。
• • 纬度。
勒让德承担了一个政府给的重要任务,测量通过巴黎的子午线的长度。
海上航行经纬度的定位。
主要是通过对恒星和月面上的一些定点的观测来确定经这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算;十七、十八 世纪的天文观测,也积累了大量的数据需要进行分析和计算。
很多年以前,学者们就已经 经验性的认为,对于有误差的测量数据,多次测量取平均是比较好的处理方法。
虽然缺乏 理论上的论证,也不断的受到一些人的质疑,取平均作为一种异常直观的方式,已经被使 用了千百年,在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好 的数据处理方法。
【勒让德(Legendre)】5以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可 以观测到的,而通过建立数学模型,最终可以解出我们关心的量。
这些问题都可以用如下 数学模型描述:我们想估计的量是 β0,⋯,βp,另有若干个可以测量的量 x1,⋯,xp,y,这些 量之间有线性关系方程组的方法。
⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪y1=β0+β1x11+β2x21+⋯+βpxp1y2=β0+β1x12+β2x22+⋯+βpxp2 (2) ⋮<br/>yn=β0+β1x1n+β2x2n+⋯+βpxpn 但是面临的一个问题是,有 n 组观测数据,p+1 个变量,如果 n>p+1,则得到的线性矛盾 方程组,无法直接求解。
所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把 n 个线性方程分为 p+1 组,然后把每个组内的方程线性求和后归并为一个方程,从而就把 n 个方 程的方程组化为 p+1 个方程的方程组,进一步解方程求解参数。
这些方法初看有一些道理,但是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。
如何通过多组观测数据求解出参数 β0,⋯,βp 呢?欧拉和拉普拉斯采用的都是求解线性y=β0+β1x1+⋯+βpxp以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回 归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也 未能对这些问题提出有效的解决方案。
可见在科学研究中,要想在观念上有所突破并不容 易。
有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所 以所有方程的累积误差为累积误差 =∑( 观测值 - 理论值 )2 我们求解出导致累积误差最小的参数即可。