大数据时代下统计学有何意义

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代下统计学有何意义

作者:王子鉴

来源:《经济研究导刊》2020年第08期

摘要:通过探讨大数据时代背景下大数据与统计学之间的关系,并分别从概念与应用角度选取不同的案例对两者进行对比,发现大数据时代给统计学带来了发展空间的同时,也使得统计学受到了不小的挑战。如何把握这一发展契机以及如何应对这一挑战在当今已变得十分重要。在大数据时代下,统计学究竟有什么意义与价值是一个很值得思考的问题。

关键词:统计学;大数据时代;数据分析

中图分类号:F202; ; ; 文献标志码:A; ; ; 文章编号:1673-291X(2020)08-0155-03

引言

“大數据”这个词想必大家都很熟悉,因为它已经成为当代的最热门的词汇之一。我们身边许许多多发生着的事情被记录着,这些都成为了“大数据”的一部分;我们自身也被“大数据”所包围着。那么说到“大数据”,我们首先需要探讨一下什么是数据。我们常见的阿拉伯数字是数据吗?我们所看到的图片、声音是数据吗?大数据也是数据吗?其实这些都属于数据,而数据真正的含义远不止这些,各种数字符号、字母的组合、语音、图像、图形等都可以称为数据。数据可以分为连续型数据以及离散数据。而在计算机系统中,数据是以0,1这种二进制进行表示与储存的。我们也可以将数据理解为一种信息载体,记录着某种信息,可以利用它们进行分析,得出有用的结论。

在了解完“数据”的概念后,对于“大数据”这一概念应该就不难理解了。“大数据”的出现可以追溯到Apache的一个开源项目Nutch。那时大数据仅仅是用来描述海量的数据,随着谷歌MapReduce的发布,大数据不仅仅用来描述数据的量,还涵盖了处理数据的速度。随着互联网技术的发展,世界上各种工业电子设备都被装载了数码传感器,可以记录各式各样的时空信息,产生了大量的数据信息,“大数据时代”也因此而到来。据统计,互联网上每年的数据增长率都呈指数上升的,每两年数据量便可翻一番,世界上90%以上的数据都是近几年所产生出来的。“大数据”也可被定义为承载了巨大的信息量数据,在一定时间内其很难被常规软件所获取与处理的数据集合。其具有五大特点:大量、高速、多样、真实、低价值密度。“大数据”真正的意义并不是我们掌握了多么庞大的数据体量,而是在于我们如何通过处理这些数据得出有价值的结论,通过对数据的加工处理实现数据自身的“增值”。

一、统计学的意义

“统计”可以追溯到人类早期的计数活动,虽然其起源很早,但一直停留在统计实验阶段,并没有人将其科学地进行定义,上升至理论科学层面。直到概率论的出现,统计研究才因此变得更加深入。法国数学家拉普拉斯最早将古典概率论与统计进行了融合,因此才有了“统计学”这一概念的产生。

随着统计学的不断发展,这一学科的科学性得到充分体现,应用也已变得越来越广泛。理解并掌握一些常用的统计学知识对于大众来说已变得十分必要。其实我们身边遇到的很多事情多多少少都可以统计学的方法和思维进行解决,比如预测天气、选择股票等等。从科学的角度,统计学目前已经被列为了一级学科,这一点足以看出其对当代社会的重要程度。

了解完统计学的发展史,接下来我们可以给统计学下个定义了。统计学可以被认为是处理数据的一门科学,具体来说是收集、处理、分析、解释数据并从数据中得出结论的科学。统计研究的对象就是来自各个领域的数据,而数据分析就是利用合适的统计方法对数据进行研究,从数据中挖掘出有用的信息。统计学的方法主要可以分为描述统计和推断统计。描述统计是将数据进行汇总,利用图表进行概括分析;推断统计则是利用样本数据推断总体特征。

二、统计数据不仅仅是大数据

统计学是一门古老的学科,至今已经有300多年的历史了,无论在政府决策还是经济预测都起到了举足轻重的作用,在社会科学与自然科学中都保有较高的地位。但随着“大数据”的产生以及“大数据时代”的到来,统计学面临着严重的挑战。有些人已经怀疑,在大数据时代是否还需要基于抽样设计的统计学?他们认为,现在的计算机科学已经足够发达,可以借助各种渠道与媒介收集大量的数据信息,如果我们可以将全部数据收集到,那么统计学是否已变得不再重要了呢?事实确实如此吗?的确,大数据时代的到来给统计学带来发展机遇的同时也带来了不小的挑战,但其实这两种科学是相辅相成的,统计学在当今这个大数据时代仍起到了极为重要的作用。

(一)统计学是收集数据的艺术

我们说统计学是一门收集数据的艺术,那么艺术性究竟体现在哪里呢?让我们利用一个实验来进行分析。

早在17世纪初,英国海军由于长时间在海上作业,经常会患有坏血病。这种病的症状是皮肤上出现灰色的斑点,以及牙龈大量出血。他们试图找出患病原因,发现可能是由于缺乏柑橘类水果所引发的。为了验证这一想法,英国海军做了一个实验。恰好那时有四艘海军军舰要离开英国在海上做长期航行,海军部的实验人员安排其中一艘军舰上的海军每天喝柑橘汁,而其他三艘军舰则未供应柑橘汁。还未等到航行结束,三艘没有喝柑橘汁船上的海军就成批的出现坏血病,而每天喝柑橘汁的海军们则几乎没有患病。

在这项实验中我们不难发现,实验人员利用了统计学收集数据的方法设置了实验组和对照组,每天喝柑橘汁的海军与未喝柑橘汁的海军被分别定义为实验组和对照组,进而形成对比。如果在实验中未安排对照组,则无法断定柑橘汁这一因素对坏血病发病的影响。设计一个好的实验都需要安排一个实验组以及多个对照组。

但若仔细分析上述实验设计,仍存在一些不足之处。主要体现在以下两点:(1)由于四艘军舰航行路线并不相同,导致实验组和对照组所处的外部环境有差异,应该在每一艘军舰上都安排每天喝柑橘汁和不喝柑橘汁的海员,这样就排除了军舰与外部环境的影响。(2)各个海员的身体条件不一定相同,所以实验者应该随机的安排在各艘军舰上,这样同一艘军舰上健康与不健康的海员数量相差不大,可以排除海员身体情况的差异,使得实验结果更加令人信服。

想要设计一个好的实验并不是件容易的事情,特别在搜集数据方面。实验组和对照组的产生要是完全随机的,并在相同的条件背景下进行实验。例如,在收集一种新药或者新疗法是否有效的数据过程中,可以先将实验对象按照年龄、性别、身体条件等因素进行相应的分组,并将分组结果分别对患者与医生保密,构成一种双盲法实验。这样才会使得收集数据的结果更加准确与可信。由此不难看出统计学是一门收集数据的艺术。

(二)统计学是分析数据的艺术

通过设计严谨科学的数据收集方案并实施后,我们获得了为研究某一问题所需的数据。但仅仅拥有这些数据是远远不够的,我们很难从纷繁复杂的数据中直接找到有价值的信息,所以还需要对收集上来的数据进行数据分析以获得有用的信息。

在数据分析中,我们首先需要明确两个概念:相关与因果。之所以说到这两个概念,是因為人们常常会混淆这两个概念。尤其在当今这个大数据时代,我们可以收集到海量的数据,相关关系似乎已经代替了因果关系,但对于绝大多数科学研究与政策制定,往往人们更加依靠因果关系。但当两个事物呈现相关关系时,我们可能误将这种关系理解为因果关系。下面通过一个例子来理解这一点。

利用统计数据,我们发现每年短裤、短裙销量增加的同时,各地区溺水身亡的人数也在不断增加,那么我们可以说这是一种因果关系吗?仔细分析一下,就能发现其中的缘由。每年短裤、短裙销量增加的季节都为夏天,夏天由于天气炎热,有更多的人会选择去户外游泳,不幸溺水身亡的人数自然就会增加。这两个事件其实都是受到季节影响,呈现出一种相关关系,而并不是我们想要追求的因果关系。

相关关系可以被定义为:如果有两个事物,当一个事物发生变化时,另一个事物也会随着发生规律变化,我们就说这两个事物存在相关性。而因果关系则是:一个事物的发生会直接影响另一个事物的发生。比如,商品价格上升会导致销量的下降,则可以认为价格和销量之间存

相关文档
最新文档