大数据:变革世界的关键资源
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据:边个世界的关键资源
通过这几周形势与政策课上的讨论与学习,我对大数据有了深刻的感悟:这是让人幸福的时代,也是让人烦恼的时代,让我们与大数据时代紧紧相拥。
为了了解究竟什么是大数据,我最近几个星期拜读了维克托·迈尔的《大数据时代》,感慨颇多,技术引领我们进入数据时代。
这本书写得比较完整全面,案例比较多,有一定的参考意义。
数据存储、分析能力的提高大大改变,基于大数据的分析结果已经完完全全改变了我们的生活,如便捷的翻译、便捷的输入、新产品的推荐等。
大数据已经成为学术界、业界关心的热切关心的问题,大数据时代的技术模式、管理模式都尚且未知。
本文在梳理大数据的学术研究脉络的基础上,分析大数据和云计算的关系,大数据内涵及与信息技术发展的关系,并尝试对大数据在学术界和业界的发展进行预测。
其中一段写道,大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。
购买飞机票就是一个很好的例子。
奥伦·埃齐奥尼(Oren Etzioni)在一次购买昂贵机票后,决定创建一个预测性的公司。
这个小想法逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。
通过预测机票价格的走势以及增降幅度,Farecast 票价预测工具能帮助消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。
棕色的头发,露齿的笑容,无邪的面孔,这就是奥伦· 埃齐奥尼。
他看上去完全不像是一个会让航空业损失数百万潜在收入的人。
但事实上,他的目光放得更长远。
2008 年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购买等。
只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。
但是在他实现计划之前,微软公司找上了他并以1.1 亿美元的价格收购了Farecast 公司。
而后,这个系统被并入必应搜索引擎。
到2012 年为止,Farecast 系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。
Farecast 票价预测的准确
度已经高达75 %,使用Farecast 票价预测工具购买机票的旅客,平均每张机票可节省50 美元。
Farecast 是大数据公司的一个缩影,也代表了当今世界发展的趋势。
五年或者十年之前,奥伦· 埃齐奥尼是无法成立这样的公司的。
他说:“这是不可能的。
”那时候他所需要的计算机处理能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微而重要的改变正在发生,特别是人们关于如何使用数据的理念。
上面一个小小的事例就说明国外对于新型技术的敏感程度大大
高于国人。
现代历史上的历次技术革命,中国均是学习者。
而在这次云计算与大数据的新变革中,中国与世界的距离最小,在很多领域甚至还有着创新与领先的可能。
只要我们以开放的心态、创新的勇气拥抱“大数据时代”,就一定会抓住历史赋予中国创新的机会。
《大数据时代》认为大数据的核心就是预测。
大数据将为人类的生活创造前所未有的可量化的维度。
大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。
书中展示了谷歌、微软、亚马逊、IBM、苹果、facebook、twitter、VISA等大数据先锋们最具价
值的应用案例。
并且书中提到了三点人人信奉的原则:大数据要求人们改变对精确性的苛求,转而追求混杂性;要求人们改变对因果关系的追问,转而追求相关关系。
但令人无条件信奉下也有问题存在,下面针对这三点的问题进行详细的分析。
1.不是随机样本,而是全体数据。
这个说得似乎人类从来就不知道使用全体数据可以得到更全面
的结论,而非要去煞费苦心发展出一套抽样技术一样。
人类早就知道处理全量数据的好处,而之所以要进行抽样分析,原因不外乎两点:一是处理能力有限,二是数据收集能力有限。
我认为人类之前主要受限于数据的处理能力而不去处理全量数据,但在目前机器处理能力有了巨大的提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力。
但是即便如此,抽样所要针对的很多应用场景是不太可能收集全量数据的情况。
比如人口普查,无论计算机力量如何强大,当前很多数据还是要人工去收集,所以这个普查还是要用抽样的方式。
有意思的是,作者用人口普查是抽样分析来说明非“全量”时代我们被迫采用了抽样,而最终也没法说我们是否已经可以用全量数据来做
人口普查了。
实际上至少在目前,对于人口普查,抽样还是必然的选择。
在大数据时代呢?我们还是没法去做“全量分析”,我们必须依靠抽样。
即便不提这些例子,仅从逻辑而言:收集、处理数据的行为本身也在不断产生着新的数据。
我们又怎么证明这些数据不是你需要的“全量”的一部分呢?
作者的行文中,关于什么是“全量”,处于不断的摇摆之中。
有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。
作者举了人口普查的例子,这个全量显然指前者。
而在很多商业案例中,又显然指后者。
我们有能力处理越来越多的、在以前不敢想象的大量数据,但是至少目前看,我们还没可能说我们处理了“全量”。
我们最多可以说我们能处理我们能搜集到的“全量”,但如果据此产生了我们已经没有遗漏数据了的感觉,认为所有数据尽在掌握了,那我认为是一种很可能导致错误的错觉。
2.不是精确性,而是混杂性。
这一点说得似乎以前的人类在使用“抽样”数据时都认为取到的数据是“精确”的一样。
在使用抽样数据的时候,我们就知道要承受一定的误差。
我们甚至知道在就算取得了“全样”数据的时候,也可能因为有各种原因而导致的不精确,统计实践中对此有相当多的案例。
人类从未奢望过我们通过数据分析取得的多数结论是精确的。
我们从来都要在信息混杂的情况下做出大多数的决策。
3.不是因果关系,而是相关关系。
这是很多人认为最有价值、最重大的发现,而实际上却也是最收到批评的一个观点。
连译者周涛教授在序言里都表示不太赞同,他认为如果放弃对因果关系的分析,是人类的堕落。
不说这么高的哲学层面,只从逻辑和技术上讨论一下。
计算机能够提供给我们的结论,都是相关性。
计算机从未提供过明确的因果关系给人类。
是否因果关系,是人类在数据基础上,进行的人为判断。
一直有相当多的应用,也是只考虑相关性,不考虑因果关系的:确定因果关系,是需要更大的精力、更多的投入的。
所以只看相关性而不看因果性也不是什么新的结论。
而这个相关性是不是可以作为决策的基础呢?这个一样离不开人的判断。
有一个这样的故事:通过大量的数据分析,慈善组织得出结论:一个国家、地区的电视机的普及率与发达富裕程度很有关系,于是他们就向贫困国家赠送了很多
电视,认为此举可以促进改过的经济发展。
你可以认为电视的普及与经济文化的密切相关,但是实际上最终发现更可能是经济发展导致了电视的普及,而不是反过来。
所以,我们真的不需要因果分析吗?
作者举了一个例子:谷歌分析搜索关键字来确定哪里可能发生了流行病。
认为这就是利用了相关性而不是因果性。
这是没有利用因果判断吗?现在在投入巨大的机器资源进行分析之前,分析师已经预计了得病的症状可能会导致人们去网上进行相关搜索,这就影响了搜索行为。
谷歌存储的用户上网信息肯定远远不止一个搜索关键字,分析师为何不开足马力把“全量”数据、各个指标都分析一遍呢?比如用户上网地点?上网时间?上网频率?上网语言?浏览器版本?客户端操作
系统?为何会像导弹一样精确地将机器资源投放到了关键字上呢?
然而如今,一个大规模生产、分享和应用数据的时代正在开启。
正如维克托教授所说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。
而发掘数据价值、征服数据海洋的“动力”就是云计算。
互联网时代,尤其是社交网络、电子商务与移动通信把人类社会带入了一个以“PB”(1024TB)为单位的结构与非结构数据信息的新时代。
在云计算出现之前,传统的计算机是无法处理如此量大、并且不规则的“非结构数据”的。
我们生活在社会中,就不得不同数据打交道。
我们也是数据的
一部分,不论我们想不想与大数据牵扯到一起,数据都会找到我们,覆盖我们。
大数据时代已经来临,如何从海量数据中发现知识,寻找隐藏在大数据中的模式、趋势和相关性,揭示社会现象与社会发展规律,以及可能的商业应用前景,都需要我们拥有更好的数据洞察力。
参考文献:
[1].《大数据时代》(英)维克托.迈尔.舍恩伯格
[2].百度百科
[3].新浪博客。