大数据与云计算
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与云计算
在IT业界,有人把大数据产业定义为:“建立在对互联网、物联网等渠道广泛大量数
据资源收集基础上的数据存储、价值提炼、智能处理和分发的信息服务业”,或者如IT巨头概括大数据战略为:“致力于让所有用户能够从几乎任何数据中获得可转换为业务执行的洞察力,包括之前隐藏在非结构化数据中的洞察力”。“总之是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。微软公司全球资深副总裁、微软亚太研发集团主席张亚勤博士接受记者采访时说。
虽然有多种解读,但业界一般认为,大数据有四个“”字开头的特征:Volume(容量),Variety(种类),Velocity(速度和最重要的Value(价值)Volume是指大数据巨大的数据量与数据完整性。张亚勤说,IT业界所指的数据,诞生不过60多年。而一直到个人电脑普及前,由于存储、计算和分析工具的技术和成本限制,许多自然界和人类社会值得记录的信号,并未形成数据。几十年前,气象、地质、石油物探、出版业、媒体业和影视业是大量、持续产出信号的行业,但那时90%以上采用的是存储模拟信号,难以通过计算设备和软件进行直接分析。拥有大量资金和人才的政府和企业,也只能把少量最关键的信号,进行抽取、转换、装载到数据库中。张亚勤认为,尽管业界对达到怎样的数量级才算是大数据并无定论,但在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要。
Variety则意味着要在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过网络连成了一个整体。进入以互动为特征的Web2.0时代,个人计算机用户不仅可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多。“这必然促使我们对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的‘关联性’,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。”张亚勤说。Velocity可以理解为更快地满足实时性需求。数据的实时化需求正越来越清晰。对普通人而言,开车去吃饭,会先用移动终端中的地图查询餐厅的位置,预计行车路线的拥堵情况,了解停车场信息甚至是其他用户对餐厅的评论。吃饭时,会用手机拍摄食物的照片,编辑简短评论发布到微博或者微信上,还可以用LBS(基于位置的服务)应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
张亚勤说,如今,通过各种有线和无线网络,人和人、人和各种机器、机器和机器之间产生无处不在的连接,这些连接不可避免地带来数据交换。而数据交换的关键是降低延迟,以近乎实时――这意味着小于250毫秒――的方式呈献给用户。
“但比前面3’更重要的,就是Value,它是大数据的最终意义――获得洞察力和价值。”张亚勤说,大数据的崛起,正是在人工智能、机器学习和数据挖掘等技术的迅速发展驱动下,呈现这么一个过程:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。
百度相关专家认为,就大数据的价值而言,就像沙子淘金,大数据规模越大,真正有价值的数据相对越少。“所以真正好的大数据系统,重要的不是越多越好,其实越少越好。”张亚勤说,开始数据要多,最好还是要少,把ZBPB最终变成一个比特,也就是最后的决策。这才是最关键的。
3.云计算和大数据是一个硬币的两面大数据正在引发全球范围内深刻的技术和商业变革如同云计算的出现,大数据也不是一个突然而至的新概念。“云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。”张亚勤说。云计算是大数据成长的驱动力,而另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。
30年前,存储1TB也就是约1000GB数据的成本大约是16亿美元,如今存储到云上只需不
到100美元但存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。
目前,云计算已经普及并成为IT行业主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基础架构和商业模式。个人用户将文档、照片、视频、游戏存档记录上传至“云”中永久保存,企业客户根据自身需求,可以搭建自己的“私有云”,或托管、或租用“公有云”上的IT资源与服务,这些都已不是新鲜事。可以说,云是一棵挂满了大数据的苹果树。大数据的出现,正在引发全球范围内深刻的技术与商业变革。在技术上,大数据使从数据当中提取信息的常规方式发生了变化。“在技术领域,以往更多是依靠模型的方法,现在我们可以借用规模庞大的数据,用基于统计的方法,有望使语音识别、机器翻译这些技术领域在大数据时代取得新的进展。”张亚勤说。在搜索引擎和在线广告中发挥重要作用的机器学习,被认为是大数据发挥真正价值的领域在海量的数据中统计分析出人的行为、习惯等方式,计算机可以更好地学习模拟人类智能。随着包括语音、视觉、手势和多点触控等在内的自然用户界面越来越普及,计算系统正在具备与人类相仿的感知能力,其看见、听懂和理解人类用户的能力不断提高。这种计算系统不断增强的感知能力,与大数据以及机器学习领域的进展相结合,已使得目前的计算系统开始能够理解人类用户的意图和语境。“这使得计算机能够真正帮助我们,甚至代表我们去工作”。在商业模式上,张亚勤认为,对商业竞争的参与者来说,大数据意味着激动人心的业务与服务创新机会。零售连锁企业、电商业巨头都已在大数据挖掘与营销创新方面有着很多的成功案例,它们都是商业嗅觉极其敏锐、敢于投资未来的公司,也因此获得了丰厚的回报。
IT产业链分工、主导权也因为大数据产生了巨大影响。以往,移动运营商和互联网服务运营商等拥有着大量的用户行为习惯的各种数据,在IT产业链中具有举足轻重的地位。而在大数据时代,移动运营商如果不能挖掘出数据的价值,可能彻彻底底被管道化。运营商和更懂用户需求的第三方开发者互利共赢的模式,已取得一定共识。