论大数据理论的基本原理及其价值创造
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
论大数据理论的基本原理及其价值创造
华南师范大学陈俊欢1. 步入大数据时代
如今,我们已经进入了一个大数据的时代。Facebook在2012年平均每个月有300亿条内容被创建,每天处理的数据量多达500TB(1TB=1000GB)。并且至今Facebook已存1400亿张图片,今年将增700亿张。据YouTube公布数据显示,目前用户每分钟上传的视频长度为72小时。eBay的分析平台每天处理的数据量高达100PB(1PB=1000TB),超过了纳斯达克交易所每天的数据处理量。另外根据IDC(国际数据公司)的监测统计,2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB),而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将总共拥有35ZB的数据量,增长近20倍。
事实上大数据绝不仅仅是数据的总量增大了,大数据指的是以一种集合的形式来包含所有数据,其大小或复杂性使得无法通过常用技术以合理的成本,并在可接受的时限内对其进行捕获、管理和处理。
2. 大数据时代的成因
我们先来看看大数据时代形成的原因,并且从以下三个方面来进行解释。
2.1信息生产方式的改革
信息生产方式的变革可以从两个方面来说,一是随着电脑,手机,小型摄像机等信息生产设备的普及,每位拥有者都能很轻易地创建自己的信息;二是信息的生成方式越来越多样化,以前人们一般都是通过纸张来记录信息的,如今我们还可以用短信,语音,视频,照片,微博等丰富多样的方式把各种信息记录下来。
2.2信息传播方式的改革
传统的三种信息传播渠道(报纸,电视,广播),无论是在传播的及时性还是广度始终都受到一定的限制,然而随着互联网的出现,这种情况则完全改变了。互联网使得我们每个人都能通过网络来传播我们的信息,而且传播的速度非常快,并且能轻易到达世界上的每一个角落。
2.3信息记录方式的改革
如果按照美国国会图书馆的容量来保存信息的话,恐怕几百个美国国会图书馆也装不下一个Facebook公司的数据。但是随着信息存储技术的发展,我们不仅能够把如此庞大的数据给生产出来,而且还能把他很完整的保存起来。
因此,在这三者的影响下,我们进入大数据时代的条件已经被满足了。
3. 大数据理论的本质依据
自从人类诞生之始,我们就不停地探索着世界的运行规律,随着我们探索的越多,我们所了解的也越多。“知道更多”可以说是我们人类存在的一个终极追求,千万年来我们无时无刻不做着这件事情。这时或许有人会反驳说,我们除了知道结果还应该知道过程,或者说是还应该知道他们之间的一种关系,这并没有错,但事实上我们要知道过程的原因也只是为了以后能更加便捷地知道更多的 结果。
毫无疑问,这个世界的运行总是遵循着某一规律的,即自然之规律。所谓规律,其实可以分为三种。一者是恒常规律,如日出日落,生老病死,绝无异常;二者是混沌规律,凡事不可捉摸,无法确定;三者即为浮动规律,有迹可循却又无法准确把握。
实际当中,恒常规律和混沌规律都是极少出现的,那么则可以说无论是在我们的生活领域还是经济领域上最常会出现的一个规律就是浮动规律。事实上这一点几乎所有人都知道,也都隐含于每个人的意识之中。那么,这样的一条规律或者说这样的一种意识又会对我们造成了怎样的影响呢?
让我们先来看看我们现在主流的方法是如何来认知我们所在世界的规律的。通常我们会遇到某一个问题,比方说公司的市场份额下降了,然后我们马上会找出其内在的原因,收集数据样本作出分析,接着就会制订出一系列的指导方案,再去执行,最后再来印证实施的情况是否符合原假设,如果符合则代表我们的认知是正确的,反之如果不符合则又要从新构造模型,建立假设。
恒常规律
浮动规律
混沌规律 (探索) (得知) 运行规律
(印证)
Why How What
诚然,在数据量小的时候,这种精确性的因果分析研究是唯一可行的方法,因为上文已经提到我们这个世界的运行规律本来就是浮动性的,如果分析过程再不要求精准,那么最终的结果更是相差甚远。然而事实上,这种基于有限样本的因果关系分析只是在数据量较小时的一种无奈之举。不仅操作过程非常麻烦,而且推测结果的有效性也往往难以得到保证。
然而,如果我们拥有了足够的海量的数据,情况就会变得完全不同了。无论一件事情它有着多么复杂或隐秘的内在规律,但是只要这件事情一旦发生了,它就一定会有所表现,也就是说它会表现出这件事情所拥有的特征。就比如使人感到难过的原因有千种万种,错综复杂,或许我们根本就无法探至。但是不论如何,只要一个人感到难过了,他就一定会表现出难过所拥有的特征,例如落泪,一言不发,甚至是独自喝酒.......又比如说这个月浅绿色的衣服突然变得好卖了,这件事情的原因可能非常复杂,但是无论其成因到底是怎样,我们只需要知道浅绿色衣服的销量增加了,接着我们就采购更多的浅绿色衣服就行了。当数据量小的时候,我们总会是寻求因果关系分析,想知道产生这些情况的原因到底是什么,但事实上这可能很难,甚至我们根本连这些现象都未必能发现的了。但是借助于大数据的力量,我们能从无数的例子当中得出:如果一个人落泪了或者是流露出闷闷不乐表情,那么他很有可能是感到难过了。并且浅绿色的衣服销售量猛增,我们也是通过统计全部的数据才得知的。所以大数据理论真正的魅力就是在于它把所有的理论分析全部都屏蔽掉了,我们无需再从构建假设入手,分析,计划,实施,最后印证这样一步步地推演过来,它直接就能够把最终的结果告诉你。
实际上大数据理论的核心依据就是表现理论。在1884年,心理学家威廉·詹姆斯提出了一种特殊的学说,这个学说认为,情绪只不过是对于身体所发生的变化的感觉,如果没有了身体变化(如肌肉紧张、心中加剧)等,也就没有什么情绪。这种学说我们可以称之为表现理论,关于这种理论的正确性我们暂且不论,但是如果我们将这个理论引伸一下,就能够得出一个有趣并且极其重要的结论:我们能够通过一个事物所表现出来的特征来认识该事物。然而,这样一个简单的结论却足以颠覆我们的思维模式!因为我们不需要再从原点开始一步一步地分析下去得出结论,如果我们能够收集到足够多的数据,那么这些大量的数据就能够很完整地把该件事物描绘出来,这样最终的结论就显而易见了。