大数据时代
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据时代
一、阅读书目名称:《大数据时代》维克托·迈尔—舍恩伯格等著
二、书中重要语句的节选:
大数据的核心就是预测。它是把数学算法运用到海量的数据上来预测事情发生的可能性。(第016页)
大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法。第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随即采样。第二个改变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。第三个改变因前两个转变而促成,即我们不再热衷于寻找因果关系。(017—018页)数据化——是指一种把现象转变为可制表分析的量化形式的过程。(104页)
三、正文
随着时代的发展,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性,大数据时代的来临势不可挡。大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
首先我们来阐述大数据为什么如此重要?它能带来什么价值?如今,数据代表着对某件事物的描述,数据可以记录、分析和重组它。这就出现了“数据化”这个概念,即指一种把现象转变为可制表分析的量化形式的过程。计量和记录一起促成了数据的诞生,它们是数据化最早的根基。一切数据均可量化,当文字变成数据,人就可以用之阅读,机器也可用之分析。谷歌就是精明地利用这些数据化的文本来改进了它的机器翻译服务。当方位变成数据,我们可以跟踪事物的地理位置信息。有了GPS定位系统,我们不用再担心迷路,可以想去哪就去哪。我们还可以利用大量的位置数据预测交通情况。当沟通变成数据,Facebook、Twitter、LinkedIn可以通过用户的社交网络图来得知用户的喜好。当然数据的价值并不仅限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的。不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以被不断地处理。在大数据时代下,不是所有的数据都有价值,我们要了解哪些信息是有价值的,这点尤为重要。
然而我们要如何分析大数据呢?有五个方面,第一,可视化分析。不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。第二,数据挖掘算法。可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。第三,预测性分析能力。数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。第四,语义引擎。我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析、提取、分析数据。语义引擎
需要被设计成能够从“文档”中智能提取信息。第五,数据质量和数据管理。数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。
其次,大数据时代的到来带给我们怎样的影响呢?在2009年一种新的流感病毒——甲型H1NI流感爆发的几周前,一篇论文引起的大家的注意。文中阐述了谷歌通过观察人们在网上的搜索记录来预测冬季流感的传播,并且这种预测与官方数据的相关性高达97%,且判断速度远远高于疾控中心,因此流感爆发时,谷歌成为了一个更有效、更及时的指示标。这说明大数据带来了公共卫生的变革。另一例子,通过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。说明大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。更重要的是大数据时代的到来也改变了人们的思维。人们不再认为数据时静止和陈旧的,但在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。更加具体的体现是大数据时代处理数据理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。
通过使用所有的数据,我们可以发现如若不然则将会在大量数据中淹没掉的情况。例如,信用卡诈骗是通过观察异常情况来识别的,只有掌握了所有的数据才能做到这一点。而对于我们所处的大数据时代下,我们可以通过计算机等先进工具获得的数据越来越多,越来越杂。如果一一追求数据的精确性,可想而知所带来的计算成本有多大。对于要相关不要因果,我的理解是,一方面由于相关关系背后的数学计算是直接而又有活力的,这不仅是相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的原因。应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。从亚马逊的书评组写书评、推荐新书所创造的销售业绩远远低于通过数据系统推荐产品所增加的销售这个例子,我们可以看到“知道是什么”可以创造点击率。通过给我们找到一个现象的良好关联物,相关关系还可以帮助我们捕捉现在和预测未来。例如,沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且POP-Tarts蛋挞(美式含糖早餐零食)的销量也增加了。因此,当季节性风暴来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客从而增加销量。另一方面,并不是说明不再注重因果关系,而是先追求相关关系,需要的话,再在此基础上研究因果关系。
前面所谈都是大数据时代带给我们有利的影响,然而它也会带来困扰。第一,由于大数据时代,很多数据在收集的时候并无意用作其他用途,而最终却产生了很多创新性的用途。大数据的价值不在单纯来源于它的基本用途,而更多源于它的二次利用。所以,公司无法告知个人尚未想到的用途,而个人亦无法同意这种尚是未知的用途。因此当下隐私保护法以个人为中心的思想——告知与许可就完全失去了意义。第二,如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。例如有意识地模糊化图片里出现的房屋或花园对于盗贼来说反而更加吸引了他们的注意。第三,大部分情况下,由于数据多和来源广,使得想要保护个人信息不被泄露而匿名化的措施失效。第四,滥用大数据预测,让人们为还未实施的未来行为买单,导致人们失去选择和自由意志。第五,大数据时代下,人们易受数据的统治,形成对大数据的执迷,为收集数据而收集数据,从而忽略数据的质量和客观性。越南战争中虚报死亡人数就是一个典型的例子。