浅析大数据与统计新思维
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
浅析大数据与统计新思维
发表时间:2016-10-28T16:00:05.143Z 来源:《基层建设》2016年12期作者:张晓秋[导读] 摘要:随着信息全球化的不断深入,国际社会成为了一个整体,信息技术的发展带动了整个国际社会的进步。现阶段网络数据的信息量越来越庞大,大数据时代的到来对传统信息模式起到了相当大的冲击作用,其他领域必定受到大数据时代的影响产生一些相应的变化。本文就以大数据时代下统计新思维对于其他领域的影响和发展进行了简单的分析,以促进传统统计学理论能够适应大数据时代的变
化。
中国联合网络通信有限公司哈尔滨软件研究院黑龙江 150040摘要:随着信息全球化的不断深入,国际社会成为了一个整体,信息技术的发展带动了整个国际社会的进步。现阶段网络数据的信息量越来越庞大,大数据时代的到来对传统信息模式起到了相当大的冲击作用,其他领域必定受到大数据时代的影响产生一些相应的变化。本文就以大数据时代下统计新思维对于其他领域的影响和发展进行了简单的分析,以促进传统统计学理论能够适应大数据时代的变化。
关键词:大数据统计;统计思维 1、前言
大数据时代是一个拥有庞大数据类型和规模数量的时代,同时它还有数据更新速度快等特点,这些特点对其他行业和国家经济的发展都有着重要影响。为了使国家能够顺应大数据时代的发展,统计思维的创新十分有必要。本文主要研究了大数据时代统计的发展,希望其他工作者可以通过本文的研究开阔视野,多个角度面对问题解决问题。
2、大数据的处理、抽样与分析 2.1 数据的预处理
大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的,具有总体的代表性和系统误差小的优势,但是数据获取和更新的周期长,尽管调查项目有代表性,但难以无所不包。而互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,也许是解决问题的一个思路。研究利用多源数据的重叠关系整合多数据库资源的方法,多种专题(panels)的数据可以相互联合,实现单一专题数据不能完成的目标。
2.2 大数据环境的抽样
大数据的抽样方法有待研究,“样本”不必使用所有“数据”,不管锅有多大,只要充分搅匀,品尝一小勺就知道其滋味。针对大数据流环境,需要探索从源源不断的数据流中抽取足以满足统计目的和精度的样本。需要研究新的适应性、序贯性和动态的抽样方法。根据己获得的样本逐步调整感兴趣的调查项目和抽样对象,使得最近频繁出现的“热门”数据,也是感兴趣的数据进入样本。建立数据流的缓冲区,记录新发生数据的频数,动态调整不在样本中的数据进入样本的概率。
2.3 大数据的分析与整合
针对大数据的高维问题,需要研究降维和分解的方法。探讨压缩大数据的方法,直接对压缩的数据核进行传输、运算和操作。除了常规的统计分析方法,包括高维矩阵、降维方法、变量选择之外,需要研究大数据的实时分析、数据流算法(data stream computing)。不用保存数据,仅扫描一遍数据的数据流算法,考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集,独立并行地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系沟通,构造全局统计结果。
2.4 网络图模型
网络图模型用图的结构描述高维变量之间的相互关系,包括无向图概率模型、贝叶斯网络、因果网络等。网络图模型是处理和分析高维大数据和多源数据库的有效工具,目前己经有丰富的图模型的软件系统,无向图模型利用有或无一条无方向边来描述变量之间的关联关系和条件独立性,可以将高维变量的统计推断问题分解为低维变量的统计推断问题。在一个由众多变量作为结点的大网络中,当收集到一部分变量的信息后,不用计算高维联合概率,而是采用网络传播信息流的方法有效地计算目标变量的后验概率。变量间的因果关系,利用数据学习网络结构,发现产生数据的机制和因果关系网络。
3、大数据与统计学分析方法的区别 3.1 基础数据不同
在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。
①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。
②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。
3.2 分析范式不同。
在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集——数据分析——描述事物特征/关系。
3.3 数据分析方法不同