大数据相关理论和技术(6)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据相关理论和技术(6)
胡经国
八、大数据及大数据科学与技术问题
相关文献就“大数据及大数据科学与技术问题”进行了论述。现将其介绍于下,供读者参考。本文在篇章结构、内容和文字上对原文献作了一些修改,并且添加了一些小标题,特此说明。
1、云计算形成的先决条件
信息技术从应用来看有一个信息流,即从获取、传输到计算、存储,到最后的使用。摩尔定律催生了微电子技术的快速发展。实际上是通过预测来进一步推动技术的变革。还有一个是吉尔德定律,讲的是主干网带宽每6个月增加1倍,每比特的费用将趋于零。
在计算和存储方面,在过去20多年里,计算速度和存储容量,由于微电子技术的发展,CPU的性能提高了3500倍,相应地内存和硬盘的价格下降了4.5万倍和360万倍。在带宽逐渐变得越来越廉价的时候,通讯带宽的发展远远超过摩尔定律的时候,单机就进入了网络时代,离线就进入了在线时代。这是一个非常大的变化。
2、互联网应用进入第二次价值挖掘
当我们上网获取信息资源的成本变得越来越低的时候,当通讯带宽的发展进一步超越摩尔定律的时候,就使得互联网的应用进入了第二次价值挖掘。单机进入网络,离线进入在线,使得终端维护和系统维护开始进入新的时代。这时,我们不需要知道服务方在哪里,只需要关注我们需要获取的服务和相应的资源。
由于互联网的应用,特别是Web 2.0时代的到来,因而使技术不仅从过去的单向交流时代开始进入了双向交流时代,而且也进一步加速了互联网的发展和新能力的创造。
3、计算模式的演变
⑴、计算模式的三个典型时代
过去,计算模式走过了三个典型的时代:从主机时代,到网络计算时代,再到现在的云计算时代。我们全当把它叫做虚拟的网络计算环境。我们是从封闭可控的平台,进入了开放和没有集中控制的网络环境。在未来最终的发展当中,在宽带不断发展、微电子价格不断下降而资源获取能力增强的时候,就出现了计算模式的新变化。
①、80年代第一次计算机变革,是由于PC时代造成的,也就是软件第一次成为商品。
②、90年代互联网有效规模的应用,成为信息获取和信息交换的平台。
③、在第三次的时候,这种计算模式正在推动我们进入新的前所未有的从量的积累到质的变化的时代。
⑵、几种非常有效的计算模式
对于任何一个IT领域的技术和产品,时间的开放窗口并不长。比如,像PC、手机和互联网,一旦形成技术的标准或一定规模的成熟,对于追随者就再也没有机会了,或者只能处于它的旁观者地位。这几年出现了很多非常热也非常有效的计算模式:
①、云计算
云计算对于我们在如此高速的互联网发展过程中,对提升高端计算的利用率和应用性、提升低端计算的事务处理能力和服务能力,都会有导致重要的变化。也许这种计算模式,会进一步加深我们对这方面的理解。
②、社交网络
由于交互行为的技术支持,社会网络或者社交网络也发生了很大的变化。大家都很清楚,像Facebook、人人网以及现在的上网规模都在不断变化。
③、新的更重要的一类应用模式
生产控制系统、嵌入式系统、传感器所传递的系统,给我们带来了很多新的更重要的一类应用模式。当然,科学计算永远是大数据产生的基础。
不论是从商业、工业,还是科学计算和社会计算,都给我们带来了新的问题;就是互联网二次价值的开发和新的挑战会在哪里?云计算作为一种计算模式,正在引领我们实实在在地发挥着作用。云计算背后要处理在现实应用当中或者是实际需求中的问题。人们提出大数据也是其中的一个选择。
4、大数据给我们带来什么?
⑴、大数据代表数据从量到质的变化过程
对大数据有不同的观察角度。从外在特征角度来看,就是一般所说的“4V”或者“5V”;此外,还有从规模和变化频度以及种类和价值密度的观察角度。
维基百科也对大数据给出了外在的定义:它的数据是很大的,但是现有的方法是处理不了的。对于大数据,不能简单地说它是一个数据;更重要的是,它代表了数据从量到质的变化过程。所以,不能简单地从量的规模来观察大数据。它在发生了规模的质的变化以后,给我们带来了新的问题。从传统角度看到的数据,已经从静态进入动态,从简单的多维变成了巨量的维,而且它的种类是我们没有办法控制的。
⑵、关键是如何看待和利用好大数据
大家知道,人们曾经创造过这样一个所谓的数据规律:就是数据每18个月翻一番。如此巨大的数据又不同于结构化数据,给我们带来了很多问题。因
此,如何驾驭数据,是数据过度泛滥,还是数据不容易像处理商业数据那样易于处理。数据究竟是泛滥,还是我们需要找到一种新的数据处理方式。其实有很多类型的数据。有些数据不处理也没有太大的关系,也没有特别多的价值。关键是我们如何看待真实的、有价值的数据和利用好这一类数据。
在2010年,《经济学人》有一篇专题,标题就是“数据洪灾”或“数据泛滥”。它提到,数据在从稀缺走向丰富的时候,会带来很多新的麻烦。在这篇专题当中,也谈到了关于数据经济的问题;也提出了数据进入了新的经济时代。
⑶、生产、生活及科研中的大数据
从过去科学研究当中,也就从数据的关联关系和统计特征当中找出了数据的新的价值。因此,由于信息的发展,创造了很多人为的数据,非自然的数据。这样的一部分数据,特别是和经济社会有关的数据,可能会给我们带来很多启示。同时,其中也有很多具有科学价值的重要研究内容。
大数据有多大的作用?在推特上,日本的海啸信息提前传播,受灾信息提前报警。2012年7月21日,北京的暴雨,有900万多条微博,把可能救助的方案提前在微博中发布。关于钓鱼岛,反映出社会的信息和情绪建议,如何更有效地处理这样的问题。我们也知道,谷歌公司在2008年甲流爆发前几周,就提前预测了冬季流感传播和甲流爆发。
我们很清楚,只有疾病控制中心在确认患甲流的症状以后,才能把各地的数据统计放到国家疾控中心去。从候诊、确认到上报的这段时间,一定需要两三周时间。之所以谷歌能发现这个事情,它是通过分析全国、全球用户的键入习惯和行为进行提前预警的。也就是根据用户查询的症状和方案以及用户咨询,根据互联网在线信息来挖掘社会可能面临的问题。
比如,有关专家讲,他曾经有金融危机的预感。其原因就是在他的电子商务交易当中,实时交易的支付出现了大幅度的下降。正常的情况是到圣诞节之前,采购计划应该提前半年发单。可是,3月份没有,6月份没有,到9月份实时交易的支付还在下滑的时候,对于中小企业来说,制造业就出现了新的问题。
传统上有一些例子。将婴儿的尿布、奶粉和香烟放在一起,是一种方式。也有另一种对应策略,是将婴儿奶粉和香烟的摆放距离隔得远一些。前一种方式是“顺手牵羊”;后一种方式是可以增加用户多留在商场的时间,以利于刺激消费。这些都是通过对用户实际行为的判断和分析,在统计规律基础上做出来的。
⑷、全球大数据发展将会出现新一轮重大机遇
实际上,在经济社会发展上的数据的价值当中,体现了如何对它进行归类和分析以及进行有效的预测。因此,拥有大数据,拥有大规模真实可运行的数据,并能够对它进行分析和处理,也许就是不断提高我们的竞争能力的重要力量。
在这个方面,大数据未来在投资和发展上的价值有多大?实际上,据预