大数据讲义
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
云 计 算 虚 拟 化 资 源
计算虚拟化
数 据 中 心 物 理 资 源
数据中心虚拟化( vDC) 网络虚拟化
存储虚拟化
云计算是以公开的标准和服务为基础,以互联网 为中心,提供安全、快速、便捷的数据存储和网 络计算服务,让互联网这片"云"成为每一个网民 的数据中心和计算中心。IDC(国际数据资讯公司) 预计2010年将是"云端运算服务元年",认为云计 算的增长速度将是传统IT行业增长率的6倍,未来 5年云端服务的平均年增长率可望达到26%。在国 内,云计算与物联网一道被列为将会给人们的生 活带来变革,甚至会改变生活、生产方式的新技 术。
数据存储技术: 云计算系统需要同时满足大量用户的需求,并行地 为大量用户提供服务。因此,云计算的数据存储技术必须具有分布 式、高吞吐率和高传输率的特点。目前数据存储技术主要有 Google的GFS(Google File System,非开源)以及HDFS (Hadoop Distributed File System,开源),目前这两种技术已 经成为事实标准。 数据管理技术: 云计算的特点是对海量的数据存 储、读取后进行大量的分析,如何提高数据的更新速率以及进一步 提高随机读速率是未来的数据管理技术必须解决的问题。云计算的 数据管理技术最著名的是谷歌的BigTable数据管理技术,同时 Hadoop开发团队正在开发类似BigTable的开源数据管理模块。云 计算的资源管理需要负责资源管理、任务管理、用户管理和安全管 理等工作,实现节点故障的屏蔽,资源状况监视,用户任务调度, 用户身份管理等多重功能。在云计算时代,SOA架构和以Web Service为特征的业务模式仍是业务发展的主要路线。 云计算相关 的安全技术: 云计算模式带来一系列的安全问题,包括用户隐私的 保护、用户数据的备份、云计算基础设施的防护等,这些问题都需 要更强的技术手段,乃至法律手段去解决。
大数据的产业价值及发展趋势
1
一、重新理解大数据
(一)大数据概念及其特点
数据
知识
决策
行业细化 数字化
关联 模式
市场定位 资金分配
多媒体
多维度 大规模 细粒度
趋势
相关 分类
产品选择
广告营销 时机选择 位置选择
1、大数据概念的发展脉络
信息价值 以视频为例,7X24小时的全城监控视频中,可能有用的数 据仅仅只有一两秒。可用信息在数据总量中的比例低,但其 潜在价值巨大。
从视频中发现犯罪嫌疑人周克华
全球未来5年58%的增 速,2017年达到500 亿美元。
中国2013年增速为 138%,2017年市场达 到100亿 。
2011年-2016年中国大数据市场规模 2011 年-2016年中国大数据市场规模 2011年是中国大数据市场元年 2012年政府、互联网、电信、 金融的大数据市场规模较大, 2012年-2016年迎来大数据市场的飞速发展。 四个行业将占据一半市场份额。
(3) 高可靠性 “云”使用了数据多副本容错、计算节点同构可互换等措施来保障 服务的高可靠性,使用云计算比使用本地计算机可靠。 (4) 通用性 云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化 的应用,同一个“云”可以同时支撑不同的应用运行。 通俗的来讲,云计算就是让计算变成像水、电、煤气一样的基础设 施,人们可以像购买水、电、煤气一样购买计算服务,因此可以说 云计算重新定义了IT软硬件资源的设计和购买的方式,从而可能引发 IT产业的大规模变革。 云计算主要分为四类:公共云、私有云、社区云及混合云。公共云 是利用互联网,面向公众提供云计算服务;私有云是利用企业内网和 专网,面向单一企业或组织提供云计算服务,这些服务是不提供于 公众使用的;社区云是利用内网、专网及VPN,为多家关联部门提供 云计算服务;混合云是上述两种或三种云的组合
《中国家庭金融调查报告》
中国的住房自有率是89.68%; 世界平均住房自有率是60%; 瑞士是31%,紧随其后的是瑞典和德国; 住房自有率最高是亚美尼亚,在1998年 时高达96.3%。
住房自有率水平高的国家,几乎都是经
济水平发展比较低的转轨国家,而住房
自有率低的国家则大多为经济发达的
国家。 发达国家人口流动性强,为了减少住房
件资源和信息可以按需提供
给计算机和其他设备。
我们认为:云计算是指服务 的交付和使用模式,用户通
过网络以按需、易扩展的方
式获得所需的服务。
云计算 海计算 框计算 风计算 。。。
不是
是
不是 不是 不是 不是 不是 是 是 是 是 是
概念 操作 口号 超级计算 网格计算
神计算?
新的创新模式 新的商业模式 新的运营模式 成本、效用、应用至上 大众参与的舞台
云计算面 临的安全 问题
隐私保护和 数据安全 运行环境的 安全
使用者视角
内容安全
云计算关键技术: 云计算是分布式处理、并行计算和网 格计算等概念的发展和商业实现,其技术实质是计算、 存储、服务器、应用软件等IT软硬件资源的虚拟化,云 计算在虚拟化、数据存储、数据管理、编程模式等方面 具有自身独特的技术。云计算的关键技术包括以下几个 方向: 虚拟机技术 虚拟机,即服务器虚拟化是云计算 底层架构的重要基石。在服务器虚拟化中,虚拟化软件 需要实现对硬件的抽象,资源的分配、调度和管理,虚 拟机与宿主操作系统及多个虚拟机间的隔离等功能,目 前典型的实现(基本成为事实标准)有Citrix Xen、 VMware ESX Server 和Microsoft Hype-V等。
由于各个行业都存在大数据 应用需求,潜在市场空间非常 可观。
2012年中国大数据市场规模将达到4.7亿元, 2013年大数据市场将迎来增速为138.3%的飞 跃,到2016年,整个市场规模逼近百亿。
(二)相关概念与关系分析
维基百科定义:云计算是一 种基于互联网的计算方式, 通过这种方式,共享的软硬
3、大数据的基本概念
大数据是一种数据,具有可扩展性、多样性、复 杂性的特点,需要一种新的架构、新的技术、新 的算法以及新的分析工具去管理这些数据,同时 从中抽取隐含在内的重要信息。(“Big Data” is data whose scale, diversity, and complexity require new architecture, techniques, algorithms, and analytics to manage it and extract value and hidden knowledge from it.)
云计算之PaaS、 SaaS。
安全是把 双刃剑
云计算的基础设施、 安全设施非常完备。 放在云里面的数据, 对云的管理而言又 是不安全的。
虚拟化
去重压缩
保密 绿色 节能
数据
保护
安全
可靠
虚拟化技术带来 全新安全威胁 数据集中存储引 发的安全问题
关键技术视角
云服务的管理和 调度产生的安全 问题 传统安全威胁的 新特点
各种数据类型 现在的数据类型不仅是文本形式,90%是文字、图片、音 频、视频、地理位置信息等非结构化数据,个性化数据占绝 对多数。
文字
图片
音频
视频
地理信息
Internet上1分钟内 发生了: • 639TB IP流量; • 2亿 封邮件; • 70万 Facebook更 新; • 30小时 YouTube 新增视频; • 70万 Google搜索。
非结构化数据 : 非结构化数据库是指其字段长度可变,并且每个字段 的记录又可以由可重复或不可重复的子字段构成的数据 库,用它不仅可以处理结构化数据(如数字、符号等信息) 而且更适合处理非结构化数据(全文文本、图象、声音、 影视、超媒体等信息) 结构化数据 : 结构化数据,简单来说就是数据库。结合到典型场景 中更容易理解,比如企业ERP、财务系统;医疗HIS数据 库;教育一卡通;政府行政审批;其他核心数据库等。 大数据中90%的数据属于机器数据。除了来自于服务 器、存储、网络中的传统IT数据以外,来自移动互联网、 物联网中的大量非结构化数据也都属于机器数据。相比 数据库数据,机器大数据具有数量大、增长速度快、复 杂性高、多样化等特点,但是价值密度略低。
医疗保健数据 海洋气象数据 基因工程
美国国立基因组研究所宣布,“千人基因计 划”所产生的数据总量已达到200TB,成为世 界上最大的人类基因变异数据集。
电信运营数据 中国联通上网记录每秒83万条,每月1万亿条(300TB)。 天文数据 美国大口径望远镜每两周对太空观测一遍,每天产生 16TB数据,5年总数据量将达到15PB。 企业运行数据 2000年全球新产生的数据量为1000PB到2000PB,到2010 年仅仅全球企业一年新存储的数据量就超过了7000PB。
4、大数据的特点
非结构化数据的超大规模,比结构化 数据增长快10倍到50倍。 实时分析而非批量式分析,数据输入、 处理与丢弃,立竿见影而非事后见效。 异构性(文本、图像、视频、机器数 据),模式不明显,语法语义不连贯。 大量的不相关信息,对未来趋势与模 式的深度复杂分析。
规模巨大 (Volume) 产生高速 (Velocity) 形式多样 (Variety) 信息价值 (Value)
买卖的麻烦,很多人宁愿租房住而不是
买房。相反,落后国家人口流动性较差,
拥有自有住房的家庭,反而更可能居住
在自己拥有的住房中。
北京北五环买房: 120平方米——600万
投资理财: 5%-10%利率(30-60万)
租房: 租金1万/月 房子质量好 无须物业费、维修维护、折旧、 可能的房产税…
住宾馆(30-60万): 未必每天都住; 弹性,按需 ; 客房服务、卫生、餐饮; 拎包入住。
“大数据是指无法在一定时间内 用常规软件工具对其内容进行抓 取、管理和处理的数据集合。” 2011.2 2010.4 首次列入“维基 百科”条目; Science 推 出专刊,说 明大数据对 于科学研究 的重要性; 2011
2008 《Nature》推 出了 Big Data 专刊;
2008
2010
“大数据”是指数据海量、计算复杂 的数据集合,其在一定时间内难以依 靠已有数据处理技术来进行有效的采 集、管理和分析。大数据通常满足以 下“4V”特点:
信息 价值
规模 巨大
产生 高速
形式 多样
大数据最核心的价值是: 社交网络,让我们越来越多地从数据中观察到人类社 会的复杂行为模式。社交网络,为大数据提供了信息 汇集、分析的第一手资料。从庞杂的数据背后挖掘、 分析用户的行为习惯和喜好,找出更符合用户“口味” 的产品和服务,并结合用户需求有针对性地调整和优 化自身,就是大数据的价值。
2011
4V特性: 大规模、多样化、快 速增长、 潜藏价值。
2012
2、大数据的构成
大数据包括交易数据和交互 数据集在内的所有数据集。
大数据 = 海量数据 + 复杂类型的数据
海量交易 数据
海量交互 数据
海量数据 处理
企业内部的经营交易信息,主 要包括联机交易数据和联机分 析数据,是结构化的、通过关 系数据库进行管理和访问的静 态、历史数据。通过这些数据, 我们能了解过去发生了什么。
数据的度量 尺度: 1KB=103B 1MB=106B 1GB=109B 1TB=1012B 1PB=1015B 1EB=1018B 1ZB=1021B 1YB=1024B
互联网数据 2011年全球数据产生量达到1.8ZB,以每本书 10MB计算,相当于七百万个中国国家图书馆 的容量。预计到2020年将达到35ZB,“大数据” 来敲门.
2011.5 麦肯锡全球研究 院发布一份报告 ——《大数据: 创新、竞争和生 产力的下一个新 领域》;
Βιβλιοθήκη Baidu
“大数据是指具有以下三个特征 的数据:大数据量、快速增长及 多数据来源及类型的数据。 2012 美国国家科学基 金发布大数据指 南,指出大数据 是海量、多样、 分布的、异构的 数据。
2011.11 IBM在产品发 布会上主推大 数据概念;
源于Facebook、Twitter及其他来 源的社交媒体数据构成。包括呼叫 详细记录CDR、设备和传感器信息、 GPS和地理定位映射数据、通过管 理文件传输Manage File Transfer 协议传送的海量图像文件、Web文 本和点击流数据、科学信息、电子 邮件等等,可以预测未来。
大数据的涌现已经催生出 了设计用于数据密集型处 理的架构,例如具有开放 源码、在商品硬件群中运 行的Apache Hadoop。
云计算特点如下: (1) 超大规模 “云”具有相当的规模,Google云计算已经拥有100 多万台服务器, Amazon、IBM、微软、Yahoo等的“ 云”均拥有几十万台服务器。企业私有云一般拥有数百 上千台服务器。“云”能赋予用户前所未有的计算能力 。 (2) 虚拟化 云计算支持用户在任意位置、使用各种终端获取应 用服务。所请求的资源来自“云”,而不是固定的有形 的实体。应用在“云”中某处运行,但实际上用户无需 了解、也不用担心应用运行的具体位置。只需要一台笔 记本或者一个手机,就可以通过网络服务来实现我们需 要的一切,甚至包括超级计算这样的任务。