大数据时代培训资料(PPT 39张)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1
2011年-2016年中国大数据市场规模 计世资讯认为,2011年是中国大数据市场元年, 一些大数据产品已经推出,部分行业也有大数据 应用案例的产生。2012年-2016年,将迎来大 数据市场的飞速发展。
计世资讯预测,2012年中国大数据市场规模将 达到4.7亿元,2013年大数据市场将迎来增速为 138.3%的飞跃,到2016年,整个市场规模逼近 百亿。
•Google的BigTable BigTable提出了一种很有趣的数据模型,它将各列数据进行排序存 储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。 •Amazon的Dynamo Dynamo使用的是另外一种分布式模型。Dynamo的模型更简单, 它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因 此它实现的是相对松散的弱一致性:最终一致性。
商业价值
结构化数据向非结 构化数据演进,使 得未来IT投资重点 不再是建系统为核 心,而是围绕大数 据为核心; 海量数据可以在各 个部门创造重大的 财物价值,未来投 资倾斜。
艾普云—Openstack云系统专家
用户行为分析
艾普云—Openstack云系统专家
大数据应用案例(中信银行信用卡中心)
大数据时代
Is coming……
艾普云—Openstack云系统专家
目录
1.
什么是Big Data
2.
大数据市场简析
3.
云与大数据
4.
大数据应用案例
5. 艾普云—Openstack云系统专家
艾普云在大数据时代的布局
2
Big Data名词由来
2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念
艾普云—Openstack云系统专家
商业价值
在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么 被大数据驱动的新生代商业格局淘汰。
Hadoop 数据 数据采集、数据存储、数据 处理 ——Yahoo!北京全球软件 研发中心架构师 韩轶平
RDBMS VS. NoSQL
大数据存储的 核心需求
保证一致性的开销过大,难以实 现高并发 存储性能受限于控制器,性能难 以保证 关系型表单存储难以适应不同数 据类型 上亿行数据的超级达标效率极低 无法简单的通过添加服务节点来 扩展数据容量和负载能力,难以进 行横向扩展 数据库升级需要停机维护和数据 迁移,导致服务中断 传统基于盘阵的存储设备,造价 昂贵,且市场垄断严重,建设成本 居高不下,扩容成本尤其高 许可和维护花费高昂 艾普云— Openstack云系统专家 不保证遵循ACID原则,提高 并发读写性能
B
专属的、 A 可共享的
五大 基本特征 E
动态的、 C 可扩展的
沉淀的、 可挖掘的
D 实时的、
可追溯的
艾普云—Openstack云系统专家
目录
1.
什么是Big Data
2.
大数据市场简析
3.
云与大数据
4.
大数据应用案例
5. 艾普云—Openstack云系统专家
艾普云在大数据时代的布局
10
中国大数据市场分析
艾普云—Openstack云系统专家
Big Table
为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千 台服务器。
数据模型 Key-Value映射:
(row:string, column:string, time:int64)→string Bigtable的表会根据行键自动划分为片(tablet), 片是负载均衡的单元。
NoSQL
NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一 些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库, 叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数 据管理上。
•NoSQL运动两个核心理论基础:
目录
1.
什么是Big Data
2.
大数据市场简析
3.
云与大数据
4.
大数据案例
5. 艾普云—Openstack云系统专家
艾普云在大数据时代的布局
24
商业价值——淘宝
马云的判断来自于数据分析
双“十一”背后的技术讨论
艾普云—Openstack云系统专家
商业价值
政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目 标;应用到制造等更多行业。 艾普云— Openstack云系统专家
,被称作大数据。
艾普云—Openstack云系统专家
数据存储演进及含义
单位 代号 KB MB GB TB PB 数值 210字节 220字节 230字节 240字节 250字节 含义的概略表述 一页文字大约5KB 一首流行歌曲大约4MB 一部电影大约1GB 美国国会图书馆网络备份大约260TB 谷歌每小时处理数据大约1PB
2012年3月,美国政府发布《大数据研究计划》,推进大
数据在科研、医疗、能源、安全等领域的应用。 欧盟、日本、新加坡等国政府都在加紧行动。
艾普云—Openstack云系统专家
目录
1.
什么是Big Data
2.
大数据市场简析
3.
云与大数据
4.
大数据案例
5. 艾普云—Openstack云系统专家
字节
千字节 兆字节 吉字节 太字节 拍字节
Byte 8位(Bit) 在计算机上的一个字母是1B
艾字节
泽字节
EB
ZB
260字节
270字节
中国每人一册500页的书大约1EB
截止2010年全人类信息总量约1.2ZB
尧字节
YB
280字节
目前难以表述
艾普云—Openstack云系统专家
大数据的基本特征
海量的、 可细分的
标准的虚拟化及分布式存储 内存计算技术 ——SAP中国区企业信息 管理咨询资深顾问 杜韬
持续创新传统的企业级数 据仓库产品线 收购Aster Data Hadoop、MapReduce ——Teradata首席客户官 周俊凌
艾普云—Openstack云系统来自家腾讯在天津投资建立亚洲最大的数据中心; 新浪推出企业微博产品,提供精准的数据分析服务。
中国500强企业数据中心数据年增长率
非结构化数据
中国企业级数据中心数据存储量正在快速增长, 非结构化数据呈指数倍增长,如果能有效的处理 和分析,非结构数据中也富含了对企业非常有价 值的信息。
艾普云—Openstack云系统专家
12
企业大数据应用需求分析
1
目前企业的数据系统架构存在问题
2
目前企业数据分析处理面临的问题
会科学,被称为“计算社会科学”。
艾普云—Openstack云系统专家
各国高度关注大数据的应用
2009年,联合国启动《全球脉动计划》,借助大数据分 析全球灾害、疾病、环境变化等,向相关各方发出预警, 推动应对。
2012年1月,WEF达沃斯年会把“大数据、大发展”列
为重要议题,引起全球政界、商界的高度关注。
艾普云在大数据时代的布局
16
云计算与大数据
蓝蓝的天上白云飘
白云下面数据跑
如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝 藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数 据的积淀,云计算也只能是杀鸡用的宰牛刀!
艾普云—Openstack云系统专家
大数据时代下的系统需求
•High performance –高并发读写的需求 高并发、实时动态获取和更新数据 •Huge Storage –海量数据的高效率存储和访问的需求 类似SNS网站,海量用户信息的高效率实时存储和查询 •High Scalability && High Availability –高可扩展性和高可用性的需求 需要拥有快速横向扩展能力、提供7*24小时不间断服务 艾普云—Openstack云系统专家
2
2012年各行业大数据市场规模 计世资讯预测,2012年政府、互联网、电信、 金融的大数据市场规模较大,四个行业将占据一 半市场份额。 由于各个行业都存在大数据应用需求,潜在市 场空间非常可观。
11
中国企业大数据现状
中国500强企业日数据生成量 企业非结构化数据越来越多
结构化数据
半结构化数据
20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data
艾普云—Openstack云系统专家
Big Data时代到来
在web 2.0的时代,人们从信息的被动接受者变成了主动创造者
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 大数据时代正在来临..
艾普云—Openstack云系统专家
什么是Big Data
大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理 和处理的数据集合
1. Volume 数据量巨大
全球在2010 年正式进入ZB 时代,IDC预计 到2020 年,全球将总共拥有35ZB 的数据量
高并发读写 高效率存储 和访问 高可扩展性 和高可用性 低成本建设 运维
Schema-Free存储适应不同数 据类型 舍弃SQL标准功能,尽量简化 数据操作,提升效率 MapReduce实现高效访问 支持水平扩展,可简单的通过 添加服务节点来扩展数据容量和 负载能力 数据库升级不影响服务持续 基于X86设备,价格低廉 开源系统,节省许可费用
4. Velocity 实时获取需要的信息
大数据区分于传统数据最显著的特征。如今已是ZB 时代,在如此海量的数据面前,处理数据的效率就 是企业的生命
艾普云—Openstack云系统专家
大数据的含义与界定
大数据是指数据量超出传统尺度,一般软件工具 难以捕获、存储、管理和分析的数据集。 不同行业、不同企业、不同时期、大数据的规模 不尽相同、无需也无法统一。 目前,大体上,数据量达到大字节(TB,240)的
支撑技术
用GFS来存储日志和数据文件
按SSTable文件格式存储数据
用Chubby管理元数据
艾普云—Openstack云系统专家
参考文献: 《The Chubby lock service for loosely-coupled distributed systems》 ——Google论文
NoSQL数据库
3
各行业企业对大数据的关注程度
艾普云—Openstack云系统专家
13
大数据对经济社会影响巨大
据国外预测: 大数据用于制造业能减少50%的成本,用于零售业能增加 60%的利润。 美国将大数据用于医疗保健,能产生3000亿美元的效益; 欧洲把大数据用于公关管理能产生2500亿欧元的效益。
大数据引入经济学和社会学,基于数据精确量化分析的社
2. Variety
结构化数据、半结构化数据和非结构化 数据
如今的数据类型早已不是单一的文本形式,订单、 日志、音频,能力提出了更高的要求
3. value 沙里淘金,价值密度低
以视频为例,一部一小时的视频,在连续不间断监 控过程中,可能有用的数据仅仅只有一两秒。如何 通过强大的机器算法更迅速地完成数据的价值“提 纯”是目前大数据汹涌背景下亟待解决的难题
艾普云—Openstack云系统专家
Big Data时代到来
数据量增加 数据结构日趋复杂
大量新数据源的出现则导致了非结构化、半结构化数据 爆发式的增长
根据IDC 监测,人类产生的数据量正在呈指数级增
长,大约每两年翻一番,这个速度在2020 年之前会 继续保持下去。这意味着人类在最近两年产生的数 据量相当于之前产生的全部数据量 TB PB EB ZB
大数据 挑战
发卡量增长迅速:2008年发卡约500万张,2010年增加了一倍。 业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨 胀。 数据存储、系统维护、数据有效利用都面临巨大压力。 可扩展、高性能的数据仓库解决方案 能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析 提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动 有针对性的营销活动。
相关文档
最新文档