大数据与统计分析综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与统计分析综述
发表时间:2018-12-18T10:18:29.840Z 来源:《基层建设》2018年第31期作者:赵丹丽房庭栋
[导读] 摘要:随着信息技术的发展越来越快,普及程度越来越高,大数据对生活各领域的影响也越来越大。
河南中烟黄金叶生产制造中心河南郑州 450000
摘要:随着信息技术的发展越来越快,普及程度越来越高,大数据对生活各领域的影响也越来越大。许多领域的发展不得不进行改革,以适应大数据时代。统计学也受到了一定的影响。大数据具有规模大、种类多、更新速度快的特点,这要求统计的方式必须随之改进,这样才能有效的工作。本文就大数据与统计进行了分析探讨,以供参阅。
关键词:大数据;统计分析
引言
要想对大数据的概念内容展开分析,需要根据不同行业、不同领域的区别展开较为深入的研究。从传统意义上来分析,对于数据这一概念内容的理解,多是通过实验、统计、检验等方法获得相应的数值信息、记录信息等,这些内容具有固定、有限和不可扩充的特性。而针对大数据,概念上却是不尽相同的。从统计学的角度进行分析,大数据不仅仅是量大,同时也具备了多样、高速化的特征。在当下的时代发展过程中,大数据已然成为了人们所共同关注的重要话题,本文通过对大数据和统计新思维的内容展开探究,希望能起到一些积极的参考作用。
1大数据的内涵
“大数据”是近几年来比较流行的一个词汇,在生活中出现的频率非常高,尤其是在研究领域。对于这个词,不同领域的人有不同的理解。从统计学的角度来解读,大数据就是建立在现代信息技术和手段基础上,连续的、扩充的数据形式。这种数据的存储能力和记录能力比传统数据要高出许多,其突出特点是数据量的规模十分庞大;记录的信息涵盖的范围很广,几乎无所不及;信息的内容质量参差不齐,鱼龙混杂。同时,信息的更新速度非常快,有利用价值的信息可能很快就被淹没,需要及时的捕捉。简单的说,大数据就是所有可记录信息的集合体。
2大数据背景下统计思维的变化
2.1数据认识上的改变
从数据来源的方面进行观察,可以发现以往样本数据是按照某种方法来进行收集的,但是大数据的内容主要是来源于网络,数据库内的信息记录不带有目的性,所以这也就导致大数据在来源上难以追溯。还有,大部分样本数据的类型都属于是结构型,而大数据的类型则是半结构、半结构和异构性的特点;最后就是之前的样本数据可靠性相关的理论基础,对于一些结构型的数据可以实施量化的处理,但是由于大数据的复杂性特点,所以量化方式也要做出适当的改变。
2.2数据思维收集上的改变
传统的数据收集是需要先有收集的目的和原因,然后才开始进行收集数据的,在收集过程中是需要进行调查的,还要经审设计收集的方式,因此传统的数据收集所消耗的时间和精力都很大,但是在大数据以后,统计的思路就需要进行改变,人们在收集数据上的选择就更多,在种类和体量上,统计分析的对象的选择权更多,因此统计分析的转变方向就是怎样利用好大数据,为统计分析服务,只要做好选择和比较的功课就行。但是统计分析,依据大数据的多样性,和增加速度之快,还存在一定的课题需要攻破,那就是存储能力、分析能力以及数据鉴别能力等,因为大数据的数据库的存储能力需要不断的更新和扩大,随着存储的数据的增多,而保存数据也是需要一个地方,一旦保存数据丢失,就会产生严重的后果,同时影响大数据的运用。
2.3数据分析上的改变
以往的数据分析上,统计思维主要是按照“定性—定量—再定性”的内容来进行,其中定性的目的是为了确定定量分析的大方向,然后借助相关的工作经验,做出有效的判断来,这种方法在数据缺失运算受限的情况下十分的重要。当前的分析判断主要来自于数据,根据这些内容找出定量回应的工作内容,寻找出数量管理的内宽容,进而可以做出最终的决断;还有,以往的统计思维实证需要分析。根据数据的研究目的,做出相应的假设来,然后收集、分析数据,判断该项假设是否成立,这种方法很容易会受到假设条件所带来的限制,出现指标选择不当的问题;最后就是传统统计思维是根据数据分布理论,按照一定概率来做出保障,推断评判的标准和样本内容之间不存在关系,其推断结果的准确性,直接取决于样本的质量。
3大数据背景下统计新思维的发展方向
(1)增加对统计人才的培养。在现代社会,不管是企业还是事业单位,对统计人才的需求量都很大,更多时候是为了适应信息时代的发展,增加自己的竞争力,同时也是统计系统电子化的数据的需要,所以就需要培养很多的统计思维的管理人才,同时对这些人才进行系统的培训和管理,并且鼓励这些人才发挥自己的能力服务社会,加强各部门之间的沟通,同时在自己的本职工作基础上进行工作创新,促进人才的培养。(2)加强科学的推算。对于统计数量的推算工作,传统的统计推算是否准确,是统计质量决定的,但是在大数据的背景下,统计的推算是要依赖于原始的数据准确性和信息化的工具来推算的,所以要充分研究和分析原始数据,促进统计推算结果的准确。(3)协调统计新思维和信息发展之间的关系。由于统计工作中大部分都是数据,大数据环境下,这些数据量会极具猛增,为了能够更好的利用实现统计的正确性,提高工作效率,调整好统计新思维与信息发展之间的关系是非常重要的,而信息技术是促进统计新思维的前提基础,反过来统计新思维有能够有效的促进信息技术的进步与完善,因此,统计工作者必须明确认识到这两点,从而更好的促进统计工作的开展。(4)提高数据信息共享性。现阶段我国大部分的统计工作中,对于各种数据的共享程度不够,也就是说数据库的更新速度与新数据实际产生的速度不一致,这样一来,数据库中的资源重复性以滞后性很大,资源的利用率不高。大数据环境下,信息的同享性非常关键,提高数据信息的共享,必然能够促进不同的信息获得者拥有与自己需求相对应的资源,从而是信息资源实现其拥有的价值。
4积极应对大数据的策略
首先,在大数据时代背景下,我们需要改变总体、个体和样本的传统内涵。传统统计分析首先要有总体,然后才有数据和样本。但是在大数据时代这种情况发生了逆转,我们首先拥有了数据,然后才有的总体。大数据并无事先定义的总体目标,只有和各个时点对应的一些事后总体,主要原因在于大数据之中的个体是在不断变化着的,是难以用事先的名录库对其进行归纳和总结的。在统计分析之后对事后个体进行识别也是相当困难的,因为在大数据中一个个体可能有多个不同的称呼和表达方式,在不同网络体系中的相同称呼或者表达方式