浅析统计学的起源

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅析统计学的起源

浅析统计学的起源

摘要从逻辑和历史两个角度对推断统计学的起源进行了尝试性的索关键词:统计史;起源

引言:史学研究历来受思想家们的重视,说史学研究应成为任何学科永恒的研究主题丝毫也不过分,因为早在两千多年前,中国古代伟大的思想家孔子,在论语中就曾留下了温故而知新的至理名言,而16世纪著名的英国哲学家培根也曾说过,读史使人明智。如果套用统计学里的一句专业术语,那就是历史具有遍历性。。

任何历史研究都必须首先限定其研究的时间范畴,对于推断统计史而言,一个首要问题就是:推断统计学的历史应该从哪里开始?为说明这个问题,我们首先探究一下统计学是什么。按一般统计学教材或百科全书上的定义:统计学是一门关于如何有效地收集、整理、表述、分析和解释数据的学科。其中的数据即为统计学的研究对象,因此统计学也被认为是一门从数据中获得有用信息的数据分析学科。需要强调的是,统计学研究的数据一定要具有随机性,也就是说可以通过某种概率分布规律来描述数据的分布状态,这一点也是统计学有别于其他处理数据学科的最重要特征。

在上述统计学的定义下,统计学又可划分为描述统计与推断统计。描述统计是一种通过图形、列表、数量化度量等方法描述样本数据基本特征的统计方法,其作用是对样本数据进行初步精炼,虽然在很多情况下样本数据的特征可用来推断总体的特征,但这需要给出推断

的误差精度,由于描述统计中不包含任何关于误差精度的陈述,故其结论也就仅局限于样本数据,与总体无关,从而也不存在推断问题。不过统计学的终极目的是希望通过样本来获取总体信息,故推断统计,即利用样本信息以及其它信息,获取有关样本所处总体信息的推断理论,就成为描述统计进一步发展的必然产物。下面我们引述有关文献给出的几个相当久远的例子加以说明。

古印度部落国王图潘纳为了炫耀自己的数学能力,他告诉自己的马车夫纳拉一个被放逐的国王,说他猜测出了一颗巨大果树两个枝干上的树叶与果实的数量,纳拉经过一夜的计算,吃惊地发现图潘纳的猜测非常接近实际的真实数量。这个故事来源于印度史诗摩诃婆罗多它最迟完成于公元400年。相当多的现代学者们认为,图潘纳是通过计算某一个典型小枝上树叶与果实的数量后,将其乘以整个果树上小枝的个数得到他的猜测的。

在伯罗奔尼撒战争中,古希腊的雅典人曾采取过架云梯突破敌人城墙的方法。由于建造适当高度的云梯就必须知道敌方城墙的高度,为此雅典人采取了如下方法来估算城墙高度:首先派一些士兵同时数前方敌城裸露部分城墙所砌砖的层数。虽然有一部分士兵的计数会发生错误,但大多数的计数结果应该是正确的,特别是出现最频繁的层数与那部分无法看见的城墙的层数会足够接近。然后通过猜测出来的城砖厚度乘以最频繁的层数估算出城墙的高度。这个故事来源于古希腊历史学家修西得底斯所著的伯罗奔尼撒战争史

应该说在我们给出的这些例子中,古人所使用的推断方法在形

式上是属于推断统计学的,但这些方法没有给出有关推断结果的不确定性的说明,因此也就没有资格纳入推断统计学的范畴,否则推断统计学的早期历史将是一串横亘数千年的高度离散且相互独立的离散点。

在另一个方向上,估计线性方程组中未知参数的工作首先起源于1750年德国天文学家梅耶(1723-1762)关于月亮天平动理论的研究。他设计出一套精巧的方法用来求解包含3个未知量却有27个观测数据的方程,具体做法是:以其中一个未知量的系数为准,按各方程中此系数的大小分组,即最大的9个,最小的9个,最后剩下的9个各成一组,然后将各组方程加总,并利用加总后的三个方程求解未知量。梅耶这样做的原因是,他相信加总后方程之间的差异越大,方程解的

精度就会越高0[2]23。接下来的一个突破性的成果属于出生在拉古萨的著名学者波斯科维奇( 1711-1787)。1757年,波斯科维奇为了解决测量子午线长度问题提出了在假定误差之和为零的条件下,采用误差绝对值之和最小的求解原则。到了1787年,我们又一次看到了拉普拉斯,他在研究与梅耶类似的问题时,扩展了梅耶的方法,采用几种不同的组合方程方法来压缩方程的个数。最后是勒让德( 1752-1833),1805年他提出的最小二乘方法彻底地解决了求解方程组个数多于未知量的问题。但使上述两条主线最终汇聚在一起则要归功于德国伟大的科学家高斯( 1777-1855)。1809年高斯在其发表的天体物力学名著5天体绕日运行理论6中以出人意料的手法论证了观测误差服从正态分布,并利用拉普拉斯的逆概率方法证明了后验

概率最大化与最小二乘方法的等价性。高斯的这一成就使18世纪以来的推断统计学研究达到了巅峰,随后1810年拉普拉斯利用其刚刚发现的中心极限定理对高斯的结论进行了进一步的完善,从而导致了一个革命性的拉普拉斯与高斯思想相融合的新体系的建立。

从18世纪中叶至19世纪初,古典概率已走出以赌博游戏为主要研究对象的狭隘小圈子,投入到了科学领域的研究,并导致了推断统计的兴起。因此作者认为推断统计的历史始于1750年代。

上文从逻辑和历史两个角度对推断统计学的起源进行了尝试性的探索,然而历史研究,尤其是科学史的研究,是一项非常艰辛的工作。它要求研究者要认真地反复检查已被现代人遗忘了的史料,同时

还要从更宽泛的视角来审视历史。但即便如此,也不能保证研究成果是完美的。正如肯德尔指出的:历史一定从某一点开始,历史没有开始.这句话似乎有点让人疑惑,但如果用非常简洁的斯蒂格勒错误命名律来解释,则会立即释然,那就是没有什么科学发现是以他的最初发明者命名的。

相关文档
最新文档