大数据与统计学分析方法比较

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据与统计学分析方法比较

基于理念分析和比较研究方法,对大数据的分析方法和传统统计学分析方法的关联性和差异进行了对比分析,从方法的基本思想、量化形式、数据来源、分析范式、分析方法、分析视角等角度揭示了两种社会科学分析方法存在的联系与差异。

标签:

大数据;统计学;研究方法

F27

随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。

1大数据的界定

根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big,too fast,or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(V olume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。

Victor在其最新著作《大数据时代——生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。

2大数据与统計学分析方法的联系

从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。

(1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。

(2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。

3大数据与统计学分析方法的区别

(1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。

①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。

②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。

(2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集——数据分析——描述事物特征/关系。

(3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。

(4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。

4结语

综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。

参考文献

[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146169.

[2]俞立平.大数据与大数据经济学[J].中国软科学,2013,(7):177183.

[3]维克托·迈尔·舍恩伯格,肯尼斯·库克耶.大数据时代—生活、工作与思维的大变革[M].盛杨燕,周涛译.杭州:浙江人民出版社,2012.

相关文档
最新文档