统计学前沿论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
报告课程名称统计学前沿专题
年级 2011级
专业统计111 学生姓名赵应国
学号1107010270
理学院
统计学知识在生物学科中的应用分析
生物统计学是一门探讨如何从不完整的信息中获取科学可靠的结论从而进一步进行生物学实验研究的设计,取样,分析,资料整理与推论的科学.
应用数理统计学来处理生物现象的学问。与其说是生物学的一个分科不如看作是生物学的方法论。与生物测量学大致具有同一涵义,但前者几乎尚没有深入到现象的统计处理机制,因此生物测量学作为稍狭义的东西,有时也与生物统计学有所区别。
统计学是一门古老的科学,一般认为其研究始于古希腊的亚里斯多德时代,迄今已有两千三百多年的历史。但是在相当长的一段时间内,统计学并没有在理论上得到特别的重视,也没有取得特别大的发展。一个很重要的原因就在于,作为统计学的基础之一的概率论,迟迟到16至17世纪才崭露头角。而作为严肃数学对象描述的概率论,出现的就更晚了。另一方面,虽然很多国家的政府早就设立有专门的统计机构,并且雇佣了大量的专职人员,但这些机构主要的任务只是简单的做计数而已,属于描述统计的范畴,比如人口统计。从数学上来看,除了数据收集和计算的繁琐易错,并没有什么真正的困难。任何新学科的发展几乎总是由一些人们无法回答的新问题开始的,而对于现代统计学来说,这个时机的到来与生物学有着密不可分的关系。
达尔文(Darwin,Charles Robert,1809—1882)于1859年发表了著名的《物种起源》,引发了巨大的争议。事实上,达尔文当时因为急于发表著作,在很多问题上都缺少充分的思考。书中许多的论断,限于当时的历史条件,也都无法找到充分的证据。对于许多现象,也都找不出合理的解释。因此,达尔文的理论不仅仅受到保守宗教界的攻击,也得到了很多严肃的学术上的质疑。这类事情并不是没有先例的,现代学者对哥白尼和托勒密的天文理论做过对比之后发现,利用哥白尼的理论计算得出的一些天文数据,其准确度并没有明显优势,甚至还有一定的缺陷。所以从现代的角度来看,无论是日心说还是进化论,其主要积极意义都在于突破思想桎梏,而并不在于其理论本身之正确性。后来,各个学科的专家们一直致力于为达尔文的理论作出验证,这其中便有统计学家的工作,不过时间已经是几十年之后了,后文会提到相关事实。
与达尔文同时代的生物学家孟德尔(Mendel,Gregor Johann,1882-1884)也在从事着创造性的工作。他那著名的豌豆的杂交实验从1856年至1864年共进行了8年,在其中孟德尔利用初等的统计学方法论证了由他所建立的遗传学理论。但遗憾的是,当时的生物学界对于这种充斥着数学味的生物研究(即使其中的数学是初等的)并无兴趣,以至于直到20世纪初孟德尔的理论才得到了再次的发现和重视。而之所以会是20世纪初,主要原因也就在于那个年代里生物统计学已经初露峥嵘。
还有一位值得一提的人物是高尔顿(Galton,Francis,1822-1911),有趣的是,他是达尔文的表弟。受到表哥的影响,他也走上了生物学方面的研究。但是与达尔文的一个很大不同在于,高尔顿早年曾经在剑桥学习数学,这种特殊的学术背景,使得他的生物研究工作与数学紧密的结合在了一起。他第一次将概率统计原理等数学方法用于生物科学,明确提出“生物统计学”(Biometrics),并被认为是该学科的奠基人之一。此外,现代统计学上“相关”(Correlation)和“回归”(Regression)的概念也是高尔顿第一次使用的。Biometrics这个词语由表示生物的bio和表示度量的metric组成。现在通常把生物统计学称作是Biostatistics,考虑到统计学一般被称为Statistics,看起来Biostatistics更符合规范,但它却是直到1949年才第一次出现,原因就在于生物统计学诞生之时,“统计学”的概念还停留在描述统计的含义上,与现代的数理统计有着天壤之别。
有趣的是回归这个名词的来源。高尔顿收集了大量的父子身高数据,得出了一个结论:父亲身材高的话,往往儿子就比父亲矮;相反,父亲身材矮的话,往往儿子就比父亲高。高尔顿把这种现象称作是“向平均回归”(Regression to mean),现代数理统计学中“回归”的含义显然已经发生了本质的变化,但却依然保留了最初研究问题的轨迹。
真正第一次规范明确的提出现代统计学基本研究方法的学者,一般被认为是高尔顿的学生,著名统计学家K•皮尔逊(Pearson,Karl,1857-1936)。皮尔逊认为,所有的科学实验,从本质上说都是不精确的。而实验得到的结果,只是一种分布的诸多样本,带有随机性。他同时提出,这种分布就是正态分布。他的革命性观念就在于打破了人们对科学实验的某种迷信,认为“真实”的东西是人类永远无法精确得到的,但是可以反过来通过对所得样本的研究,来估计那些隐藏在
数据之后的东西——就这样,参数估计(Parameter Estimation)进入了研究者们的视野。皮尔逊提出了四种指标来描述数据,分别是:平均值,标准差,偏度,峰度。他颇为自信的认为,对于任何数据,只要把握了这四个指标,就可以完全确定暗含在背后的分布。事实上,他的论断既不充分也不必要。比如对于正态分布,我们只需要知道平均值和标准差就可以完全确定了,而后来的研究者发现,对于某些的分布来说,仅仅用4个指标描述是不够的。虽然如此,他的基本思路却成为了后来统计学研究的主流方向之一,与贝叶斯统计学派并驾齐驱。
皮尔逊并不是凭空得到这些创意的,事实上,作为高尔顿的学生,他也在生物统计方面做出了重要的贡献。达尔文提出的进化论指出,外界环境的变化会产生一种影响,使得生物的各种随机变化中最适合于环境变化的那一种得到优势,由此它们的后代在继承了这种随机变化之后也会得到额外优势。代代相传下去,就会形成所谓的“适者生存”(survival of the fittest)。由于每一代都会出现一些随机变化,这些变化累计下来就有可能出现所谓新物种。这是一个革命性的想法,最主要的一点在于他指出了物种并不是恒定不变的。
但是,由于人类文明的历史并不长,我们很难亲眼看到新物种实际出现的例子。这成为很多学者攻击达尔文进化论的把柄。生物学家韦尔登(Weldon,Walter Frank Raphael,1860-1906)曾经于1893年提出“所谓变异,遗传与天择事实上只是算术”的想法。皮尔逊深受这种想法的影响,并且相信达尔文的理论具有正确性,为此他想到了通过另一种途径来验证进化论。达尔文观察的动物样本往往是孤立的,而皮尔逊认为这是不科学的。因为某一只具体的动物只是一个样本而已,它所具有的某些随机特征并不一定能反映大的物种的变化情况。但是假如收集了同一种动物的大量样本,就可以由此推出一些参数的估计值。经过一段时间之后的再次观察,用同样的方法计算出相应的参数,就可以对两组参数进行比较。如果这些参数的变化与环境的变化相适应,那么就验证了达尔文进化论的正确性。
不难看出,皮尔逊的统计学思想方法与生物研究是密不可分的。如果达尔文笔下的物种进化很容易就可以观察到的话,那么统计学的思维根本派不上用场,人们只要沿用从牛顿那个时代流传下来的实验观察方法就可以了。
与较为主观的贝叶斯主义者不同,皮尔逊的思想是基于理性主义的,继承了笛卡尔、帕斯卡、莱布尼兹等大陆理性主义者的衣钵。用通俗的话说,他认为,