大数据与我们的生活

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据与我们的生活

2013年被称为“大数据元年”,这一年几乎所有的世界级互联网企业,都将业务触角延伸至大数据产业;无论社交平台逐鹿、电商价格大战还是门户网站的竞争,都有它的影子。如今,一个大规模生产、分享和应用数据的时代正在开启。《大数据时代》的作者维克托教授曾说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。互联网的出现使得我们身边的社交网络,电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据的新时代。而发掘数据价值、征服数据海洋的“动力”就是云计算。云计算出现之前,传统的计算机是无法处理如此量大并且不规则的“非结构数据”的。而以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的两个方面:一个是问题,一个是解决问题的方法。那么在这里普及一下云计算的概念。云计算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进行传输的。这里我们没有必要将云计算的概念搞得十分透彻,因为它本身就像云一样,我们只需要知道它可以为我们提供本地主机无法提供的超强计算能力和各种服务,可以用云计算的方式解决许多在原本看来无法解决的问题。

我们回到正题,什么是大数据?

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需

要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

而IBM则提出了大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)、Value(价值)。大量是指数据量的规模可以从数百TB到数十百TB 甚至EB。高速是指大数据需要在一定的时间限度下得到及时的处理。多样是指大数据包括各种格式和形态的数据。精确是指大数据的处理结果要保证一定的准确性。价值则是大数据的根本所在。

数据的收集方式有很多方法,通过浏览器可以获取用户上网的浏览记录,搜索引擎可以轻而易举地获取全球每天发出的数十亿条搜索指令,购物网站可以得到顾客的购买记录,也可以根据人们在社交软件上面的聊天记录来收集有用的信息,还可以通过让别人做网页上面的答卷来收集信息,知道人们对于一种东西的看法和态度。

这些收集起来的数据就会全部都储藏在一起,然后有用的时候就会用特殊的软件来分析处理这些数据,国家有国家的数据,很多的公司也有自己的数据库,一个公司的数据库越大就代表了这个公司的实力越强,未来发展的可能性也就越大越好。

当然这些数据最主要的并不是绝对的大,而是有用的信息比较多,覆盖的范围比较广,是一种相对的大。这样分析出来的结果也就越准确,这些数据可以准确的反映现在社会上面发生的事情和现在人们的心理状态,可以预测到很多事情的未来的发展方向,有的公司可以根据这些数据发现自己的不足和管理漏洞,及时的改变和处理,延长企业的寿命,增加企业的资产和竞争能力。通过数据,也可以知道现在社会上面主流的东西是什么,只有抓住主流的社会,才能跟上时代的步伐,顺应历史的潮流,抓住机遇,发展自己的公司和事业。

大数据时代的三个转变

大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。

第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。19世纪以来,当面临大量数据时,社会都依赖于采样分析,但采样分析是信息缺乏时代和信息流受限制的模拟数据时代的产物。为了让分析变得简单,我们会把数据量缩减到最小,潜意识里认为我们与大量数据的交流困难是自然现象,而没有意识到这只是当时技术条件下的一种人为限制。与局限在小数据范围相比,使用一切数据为我们带来了更高的精确性,也让我们看到了一些以前无法发现的细节。

第二个转变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。当我们测量事物的能力受限时,关注最重要的事情和获取最精确的结果是可取的。这种思维方式适用于掌握“小数据量”的情况,因为需要分析的数据很少,所以我们必须尽可能精确地量化我们的记录。当我们拥有海量即时数据时,绝对的精准不再是我们追求的主要目标。拥有了大数据,我们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可。并不是说我们完全放弃精确度,只是适当忽略围观层面上的精确度让我们在宏观层面拥有更好的洞察力。

第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系,在大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且具有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但它会提醒我们这件事请正在发生。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,我们不必知道现象背后的原因,我们只需要让数据发声。

要全体不要抽样

当我们可以获得海量数据的时候,采样这种用最少的数据得到最多信息的方法就没什么

意义了。随着收集和处理数据的技术能力越来越强,我们更加倾向于“样本=总体”的数据处理方式。收集的数据越来越多,分析和预测结果就会越来越准确。乔布斯在与癌症抗争的过程中采用了不同的方式,成为世界上第一个对自身所有的DNA和肿瘤DNA进行排序的人,他得到的不是一个只有一系列标记的基因组样本,而是包括整个基因密码的数据文档。对于普通的癌症患者,医生只能期望他的DNA排列同实验中使用的样本足够相似,但是,乔布斯的医生们能够基于乔布斯的特定基因组成按所需效果用药。如果癌症病变导致药物失效,医生就可以及时更换另一种药。虽然传奇的乔布斯最终在2011年离开了这个曾被他改变的世界,但是这种获得所有数据而不仅仅是样本的方法还是使他的生命延长了好几年。

要效率不要绝对精确

对于小数据而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记录下来的数据尽量精确。同时我们需要与各种各样的混乱作斗争。混乱,简单的说就是随着数据的增加,错误率也会相应的增加,还可以指格式的不一致。2000年的时候,微软研究中心一直在寻求改进Word中拼写检查的方法。但是他们不能确定是努力改进现有的算法、研发新算法还是添加更细腻精致的特点更有效。所以在实施这些措施之前,他们往现有的4种常见算法中添加更多的数据,先是一千万字,再到一亿字,最后到十亿。当数据只有500万的时候,有一种简单的算法表现很差,但当数据达到10亿的时候,它变成了最好的,准确率从原来的75%提高到了95%以上。相反少量数据情况下运行的最好的算法,加入到更多的数据时也会像其他算法一样有所提高,但却成了在大数据条件下运行得最不好的,它的准确率从86%提高到了94%。2006年,谷歌公司也开始涉足机器翻译。谷歌翻译系统为了训练计算机,会吸收它能找到的所有翻译。它会从各种各样语言的公司网站上寻找对译文档,还会去寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。谷歌翻译部的负责人指出,“谷歌的翻译系统不会像IBM的Candide一样只

相关文档
最新文档