2020年大数据研究现状及热点应用介绍+051256
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
25
二、大数据的技术实现
Sqoop – SQL to Hadoop
SQL
JDBC
Create Map Tasks Map
JDBC
Map
JDBC
Map
HDFS/HIVE/HBase
26
二、大数据的技术实现
传统数据处理流程
运营信息
物料信息
工艺参数
操作信息
数据仓库
其他信息
ETL部份资料 大部份删除
27
经过15年的发展,Google在全球部署了大约200万台服务器,每天处理数以亿计的搜索请求,存储每 天新增的24PB数据
10
一、诺兰模型
美国管理信息系统专家诺兰(Richard·L·Nolan)通过对200多个公司、部门发展信息系统的 实践和经验的总结,提出了著名的信息系统进化的阶段模型,即诺兰模型。
13
一、大数据的研究现状
Gartner2012技术成熟度曲线
14
一、大数据的研究现状
Gartner2013技术成熟度曲线
近几年大数据不断加温,很多企业也的确面临数据量激增的现实困境,但大数据绝非仅仅是数据量大的
挑战,核心问题还是取决于数据挖掘背后所能产生的价值。在经历了一段热潮之后,大数据开始实实在
Hive – SQL like Hadoop Database
Web UI
CLI
Driver
(compiler, optimizer, executor)
JDBC ODBC
metastore
Create M/R Job
Hadoop Cluster
M/R M/R M/R M/R
Data Data Data Data Node Node Node Node
6
一、大数据的研究现状
1 2011年-2016年中国大数据市场规模
100
80
计世资讯认为,2011年是中国大数据市场元年,
一些大数据产品已经推出,部分行业也有大数据 60
应用案例的产生。2012年-2016年,将迎来大数
40
据市场的飞速发展
20
计世资讯预测,2013年大数据市场迎来增速为 0 138.3%的飞跃,2016年整个市场规模逼近百亿
其他 4%
政府 15%
交通 4%
能源 8%
教育 4%
零售
6%
制造
9%
互联网 15%
电信 11%
医疗 9%
流通 4%
金融 11%
CCW Research 2012/04
7
一、豌豆实验 - 大数据的应用之道
孟德尔(Gregor Johann Mendel)(1822~1884)奥地利人,是遗传学的奠基人。
大数据交流提纲
讲解和时间安排如下:
顺序
题目
侧重点
讲解人 时间
1
大数据研究现状及热点应用介绍
大数据发展、热点 应用、架构
黄绍辉 9:00~10:00
2 化工销售大数据应用设想
大数据价值、数据 资源分析、应用展 望
索寒生 10:00~10:30
大数据研究现状及热点应用介绍
2014年5月
石化盈科信息技术有限责任公司MES事业部
138%
150%
107% 110%
120%
92%90% 81%
60%
30%
0%
0%
市场规模 增长率
CCW Research 2012/04
2 2012年各行业大数据市场规模
计世资讯预测,2012年政府、互联网、电信、 金融的大数据市场规模较大,四个行业将占据一 半市场份额。
由于各个行业都存在大数据应用需求,潜在市 场空间非常可观。
2000年,数字存储信息只占全球数据量的25%,75%的信息存储在报纸、书籍、胶片、磁带上。到 2007年,人类共存储超过300EB的数据,其中数字数据占到93%。到2013年,全球总存储数据量达到 1.2ZB,其中数字数据占比将超过98%。数字数据的存储量维持每三年增长一倍的高速增长
信息数据化程度的大幅提升,推动了大数据的商业价值显现
8
一、曹冲称象 - 大数据的分布处理之道
工具(秤)的处理能力有限,当超出其能力范围之后,应当如何处理? 是造更大的工具(超级的大秤),还是智慧地将要称的物(大象)拆分成对等的物(石块)? “分而治之”是处理大事物的解决之道,只需将大事物分解到小工具能处理的大小,复制更多的小工具 来同时处理,最后将每一个部分的结果汇总起来,就是对大事物的处理结果
二、大数据的技术实现
探索的数据处理流程
运营信息
物料信息
工艺参数
操作信息
数据仓库
效益分析 ? 工艺分析 ? 报警分析 ?
28
二、大数据的技术实现
Spark:大数据的“电光石火”
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。立足于内存计算,从多迭代批量处 理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,罕见的全能型选手
11
一、诺兰模型的总结
数据管理阶段,企业管理高层已经意识到企业信息战略的重要性,开始着手企业信息资源的统一规划 数据成熟阶段,企业和数据同步发展,数据是企业整体面貌的镜像,企业“以数据为镜”做出发展决策 尽管诺兰提出这一模型的时间是 20 世纪 80 年代,但在 30 多年后的今天,人们不难发现 他预见的准 确性。企业的信息化建设必然会走到以数据为中心的发展阶段,无论是否愿意,这条规律都是不可违背
GFS
→ HDFS
BigTable → Hbase
Chubby → ZooKeeper
Google云计算
MapReduce BigTable GFS
Chubby
20
二、大数据的技术实现
大数据处理的平台解决方案
大数据储存
大数据处理
分布式存储 横向扩容(Scale-out) 架构
分布式软件架构 并行计算框架
4
一、大数据的研究现状
1TB=1024GB ,1PB=1024TB,1EB=1024PB , 1ZB=1024EB
数字化信息的处理,以容量为标准的划分
5
一、大数据的研究现状
来源:Wikibon公司,2012年
据Wikibon公司测算,2012年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元 ,年均增速达到58%,是同期IT产业增速的7倍
在的为企业解决问题。
15
一、大数据的研究现状
契合度
值得关注行业 用户
应有特点与大 High 数据的契合度 及应用可能性 综合较高
适当关注行 业用户
Mid
两个维度暂 时都不具备 优势,可适 当给予关注
政府(公共事业) 医疗 制造
互联网(电 子商务)
电信
交通
能源(电力/ 石油)
教育
零售
金融 流通
Low
1856年,孟德尔就开始了长达8年的豌豆实验。从不同种子供应商买来34个品种的豌豆,从中挑选出 22个品种用于实验。它们都具有某种可以相互区分的稳定性状,例如高茎或矮茎、圆料或皱料、灰色 种皮或白色种皮等。 通过人工培植这些豌豆,对不同代的豌豆的性状和数目进行细致入微的观察、计数和分析。运用这样的 实验方法需要极大的耐心和严谨的态度。 起初,孟德尔豌豆实验并不是有意为探索遗传规律而进行的。初衷是希望获得优良品种,只是在试验的 过程中,逐步把重点转向了探索遗传规律。除了豌豆以外,孟德尔还对其他植物作了大量的类似研究, 其中包括玉米、紫罗兰和紫茉莉等,以证明1865年发现的遗传规律对大多数植物都适用。
9
一、Google大数据 - 大数据的平台搭建之道
Google大数据的诞生
Google云计算
MapReduce BigTable GFS
Chubby
1998年,斯坦福大学的博士生拉里·佩奇和谢尔盖·布林在车库中创办了Google公司。两位年轻人没 有找到大笔的投资,不得不用廉价PC和自己动手做的小软件来构建网站,所依靠的最核心的3项技术就 是Google的分布式文件系统GFS、MapReduce编程模式和分布式数据库BigTable。
轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简 洁和丰富表达力;另一方面,Spark很好地利用了Hadoop和Mesos的基础设施。虽然很轻,但在容错 设计上不打折扣 快:Spark对小数据集能达到亚秒级的延迟,这对于Hadoop MapReduce是无法想象的。就大数据集 而言,对典型的迭代机器学习、即席查询、图计算等应用,Spark版本比基于MapReduce、Hive和 Pregel的实现快上十倍到百倍 灵:Spark提供了不同层面的灵活性。在实现层,完美演绎了Scala trait动态混入策略;在原语层,它 允许扩展新的数据算子 、新的数据源、新的language bindings;在范式层,Spark支持内存计算、 多迭代批量处理、即席查询、流处理和图计算等多种 范式 巧:Spark借Hadoop之势,与Hadoop无缝结合;无论是语法还是API,在实现上又能灵巧借力。
23来自百度文库
二、大数据的技术实现
Hadoop VS RDBMS
资料量 存取方式 数据更新 数据结构 资料一致性 扩充性
RDBMS
GB -> TB 交互式与批次 多次读写 固定 schema 高 (ACID) 非线性
Hadoop
TB -> PB 批次 一次写, 多次读 无 schema 低 线性
24
二、大数据的技术实现
目录
目录
一、大数据的研究现状 二、大数据的技术实现 三、大数据的热点应用
四、大数据应用架构和技术架构
3
一、大数据的研究现状
数字数据25%
2000
数字数据93%
2007 300EB
数字数据98%
2013 1.2ZB
《世界存储、传输与计算信息的技术能力》马丁·希尔伯特,普里西拉·洛佩兹
随着数字化信息的发展,人类产生和储存的数据量呈现爆发式增长,全球的总存储数据量的量级已突破艾 字节(EB)甚至泽字节(ZB)(1TB=1024GB ,1PB=1024TB,1EB=1024PB ,1ZB=1024EB)
17
一、大数据的研究现状
国内业内人士对大数据的认知
大量数据管理
海量计算
数据分析
大量用户 群体
数据在线
“知著、见微、晓意”-大数 据的解决之道
18
目录
目录
一、大数据的研究现状 二、大数据的技术实现 三、大数据的热点应用
四、大数据应用架构和技术架构
19
二、大数据的技术实现
诞生
MapReduce → MapReduce
不同行业不同应用会使用不同的产品和方案来满足自身的实际需要
16
一、大数据的研究现状
国外业界对大数据宽泛的认知
Volume 数据体量大
Variety 数据类型多
Velocity 处理速度快
8万亿
GB
2015全球信息量
85%
非结构化数据占 比
1s
数据处理速度
Value 数据价值
第一,数据体量巨大,根据IDC的研究数据显示,预计到2015年全世界将会有8万亿GB的信息量 第二,数据类型繁多,包括以往文本为主的结构化数据,也包括网络日志、音频、视频、图片、地理位 置信息等大量的非结构化数据 第三,处理速度快,1秒定律 第四,大数据的3V构成也导致其数据价值高但价值密度低的特点,也被称为大数据特点的第4个V,即 数据价值Value
起步:只有个别人具有使用计算机的能力; 一般发生在一个组织的财务部门 蔓延:数据处理能力迅速发展;出现数据冗余、不一致性、难以共享等问题;计算机使用效率不高 控制:成立了领导小组;采用了数据库技术;这一阶段是计算机管理变为数据管理的关键 集成:建立集中的DB及相应的IS;增加大量硬件,预算费用迅速增长 数据管理:开始选定统一的数据库平台、数据管理体系和信息管理平台,统一数据的管理和使用,各部 门、各系统基本实现资源整合、信息共享。IT系统的规划及资源利用更加高效 成熟:信息系统可以满足企业各个层次的需求,从事务处理到高层管理的决策。企业真正把IT同管理过 程结合起来,将组织内部、外部的资源充分整合和利用,提升了企业的竞争力和发展潜力
优先关注行业用户 应用特点与大数据技 术有较高的契合度, 在主客观条件上也有 较高的应用可能性。
• 纵轴契合度: 表示该用户的IT应用特 点 与大数据特性的契合 程度; • 横轴应用可能性:表示 该用户出于主客观因素 在 短期内投资大数据的 可能 性;
应用可能性
Low
Mid
High
大数据存在于各个行业领域,根基市场的关注度和技术成熟度将陆续应用
数据分享 数据检索 数据分析 数据展现
21
二、大数据的技术实现
Hadoop是个体系
Big Data Applications
Pig!
SQL RAW
HIVE
22
Zoo Keeper
二、大数据的技术实现
大数据处理的平台解决方案
传统并行计算架构
运算
并行计算 + 分布式存储
储存
传统储存架构
• 计算与存储一体,计算向数据靠拢,高效专用存储模式 • 为程序员屏蔽通性、并发、同步与一致性等问题 • 任务之间无依赖(share-nothing),具有高系统延展性 (scale-out)。
12
一、大数据的研究现状
发展过程
2004年-- 最初的版本由Doug Cutting和Mike Cafarella开始实施 2006年1月-- Doug Cutting加入雅虎 2006年2月-- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展 2006年2月-- 雅虎的网格计算团队采用Hadoop 2011年12月 – Cloudera 授权培训认证正式进入中国 2012年5月28日 -- Apache Hadoop 2.0 Alpha 版本发布 2013年12月 -- 除了社区的Apache hadoop发行版以外,cloudera、hortonworks、 mapR、EMC、IBM、INTEL、华为等都提供了hadoop商业版本
二、大数据的技术实现
Sqoop – SQL to Hadoop
SQL
JDBC
Create Map Tasks Map
JDBC
Map
JDBC
Map
HDFS/HIVE/HBase
26
二、大数据的技术实现
传统数据处理流程
运营信息
物料信息
工艺参数
操作信息
数据仓库
其他信息
ETL部份资料 大部份删除
27
经过15年的发展,Google在全球部署了大约200万台服务器,每天处理数以亿计的搜索请求,存储每 天新增的24PB数据
10
一、诺兰模型
美国管理信息系统专家诺兰(Richard·L·Nolan)通过对200多个公司、部门发展信息系统的 实践和经验的总结,提出了著名的信息系统进化的阶段模型,即诺兰模型。
13
一、大数据的研究现状
Gartner2012技术成熟度曲线
14
一、大数据的研究现状
Gartner2013技术成熟度曲线
近几年大数据不断加温,很多企业也的确面临数据量激增的现实困境,但大数据绝非仅仅是数据量大的
挑战,核心问题还是取决于数据挖掘背后所能产生的价值。在经历了一段热潮之后,大数据开始实实在
Hive – SQL like Hadoop Database
Web UI
CLI
Driver
(compiler, optimizer, executor)
JDBC ODBC
metastore
Create M/R Job
Hadoop Cluster
M/R M/R M/R M/R
Data Data Data Data Node Node Node Node
6
一、大数据的研究现状
1 2011年-2016年中国大数据市场规模
100
80
计世资讯认为,2011年是中国大数据市场元年,
一些大数据产品已经推出,部分行业也有大数据 60
应用案例的产生。2012年-2016年,将迎来大数
40
据市场的飞速发展
20
计世资讯预测,2013年大数据市场迎来增速为 0 138.3%的飞跃,2016年整个市场规模逼近百亿
其他 4%
政府 15%
交通 4%
能源 8%
教育 4%
零售
6%
制造
9%
互联网 15%
电信 11%
医疗 9%
流通 4%
金融 11%
CCW Research 2012/04
7
一、豌豆实验 - 大数据的应用之道
孟德尔(Gregor Johann Mendel)(1822~1884)奥地利人,是遗传学的奠基人。
大数据交流提纲
讲解和时间安排如下:
顺序
题目
侧重点
讲解人 时间
1
大数据研究现状及热点应用介绍
大数据发展、热点 应用、架构
黄绍辉 9:00~10:00
2 化工销售大数据应用设想
大数据价值、数据 资源分析、应用展 望
索寒生 10:00~10:30
大数据研究现状及热点应用介绍
2014年5月
石化盈科信息技术有限责任公司MES事业部
138%
150%
107% 110%
120%
92%90% 81%
60%
30%
0%
0%
市场规模 增长率
CCW Research 2012/04
2 2012年各行业大数据市场规模
计世资讯预测,2012年政府、互联网、电信、 金融的大数据市场规模较大,四个行业将占据一 半市场份额。
由于各个行业都存在大数据应用需求,潜在市 场空间非常可观。
2000年,数字存储信息只占全球数据量的25%,75%的信息存储在报纸、书籍、胶片、磁带上。到 2007年,人类共存储超过300EB的数据,其中数字数据占到93%。到2013年,全球总存储数据量达到 1.2ZB,其中数字数据占比将超过98%。数字数据的存储量维持每三年增长一倍的高速增长
信息数据化程度的大幅提升,推动了大数据的商业价值显现
8
一、曹冲称象 - 大数据的分布处理之道
工具(秤)的处理能力有限,当超出其能力范围之后,应当如何处理? 是造更大的工具(超级的大秤),还是智慧地将要称的物(大象)拆分成对等的物(石块)? “分而治之”是处理大事物的解决之道,只需将大事物分解到小工具能处理的大小,复制更多的小工具 来同时处理,最后将每一个部分的结果汇总起来,就是对大事物的处理结果
二、大数据的技术实现
探索的数据处理流程
运营信息
物料信息
工艺参数
操作信息
数据仓库
效益分析 ? 工艺分析 ? 报警分析 ?
28
二、大数据的技术实现
Spark:大数据的“电光石火”
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台。立足于内存计算,从多迭代批量处 理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,罕见的全能型选手
11
一、诺兰模型的总结
数据管理阶段,企业管理高层已经意识到企业信息战略的重要性,开始着手企业信息资源的统一规划 数据成熟阶段,企业和数据同步发展,数据是企业整体面貌的镜像,企业“以数据为镜”做出发展决策 尽管诺兰提出这一模型的时间是 20 世纪 80 年代,但在 30 多年后的今天,人们不难发现 他预见的准 确性。企业的信息化建设必然会走到以数据为中心的发展阶段,无论是否愿意,这条规律都是不可违背
GFS
→ HDFS
BigTable → Hbase
Chubby → ZooKeeper
Google云计算
MapReduce BigTable GFS
Chubby
20
二、大数据的技术实现
大数据处理的平台解决方案
大数据储存
大数据处理
分布式存储 横向扩容(Scale-out) 架构
分布式软件架构 并行计算框架
4
一、大数据的研究现状
1TB=1024GB ,1PB=1024TB,1EB=1024PB , 1ZB=1024EB
数字化信息的处理,以容量为标准的划分
5
一、大数据的研究现状
来源:Wikibon公司,2012年
据Wikibon公司测算,2012年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元 ,年均增速达到58%,是同期IT产业增速的7倍
在的为企业解决问题。
15
一、大数据的研究现状
契合度
值得关注行业 用户
应有特点与大 High 数据的契合度 及应用可能性 综合较高
适当关注行 业用户
Mid
两个维度暂 时都不具备 优势,可适 当给予关注
政府(公共事业) 医疗 制造
互联网(电 子商务)
电信
交通
能源(电力/ 石油)
教育
零售
金融 流通
Low
1856年,孟德尔就开始了长达8年的豌豆实验。从不同种子供应商买来34个品种的豌豆,从中挑选出 22个品种用于实验。它们都具有某种可以相互区分的稳定性状,例如高茎或矮茎、圆料或皱料、灰色 种皮或白色种皮等。 通过人工培植这些豌豆,对不同代的豌豆的性状和数目进行细致入微的观察、计数和分析。运用这样的 实验方法需要极大的耐心和严谨的态度。 起初,孟德尔豌豆实验并不是有意为探索遗传规律而进行的。初衷是希望获得优良品种,只是在试验的 过程中,逐步把重点转向了探索遗传规律。除了豌豆以外,孟德尔还对其他植物作了大量的类似研究, 其中包括玉米、紫罗兰和紫茉莉等,以证明1865年发现的遗传规律对大多数植物都适用。
9
一、Google大数据 - 大数据的平台搭建之道
Google大数据的诞生
Google云计算
MapReduce BigTable GFS
Chubby
1998年,斯坦福大学的博士生拉里·佩奇和谢尔盖·布林在车库中创办了Google公司。两位年轻人没 有找到大笔的投资,不得不用廉价PC和自己动手做的小软件来构建网站,所依靠的最核心的3项技术就 是Google的分布式文件系统GFS、MapReduce编程模式和分布式数据库BigTable。
轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢Scala语言的简 洁和丰富表达力;另一方面,Spark很好地利用了Hadoop和Mesos的基础设施。虽然很轻,但在容错 设计上不打折扣 快:Spark对小数据集能达到亚秒级的延迟,这对于Hadoop MapReduce是无法想象的。就大数据集 而言,对典型的迭代机器学习、即席查询、图计算等应用,Spark版本比基于MapReduce、Hive和 Pregel的实现快上十倍到百倍 灵:Spark提供了不同层面的灵活性。在实现层,完美演绎了Scala trait动态混入策略;在原语层,它 允许扩展新的数据算子 、新的数据源、新的language bindings;在范式层,Spark支持内存计算、 多迭代批量处理、即席查询、流处理和图计算等多种 范式 巧:Spark借Hadoop之势,与Hadoop无缝结合;无论是语法还是API,在实现上又能灵巧借力。
23来自百度文库
二、大数据的技术实现
Hadoop VS RDBMS
资料量 存取方式 数据更新 数据结构 资料一致性 扩充性
RDBMS
GB -> TB 交互式与批次 多次读写 固定 schema 高 (ACID) 非线性
Hadoop
TB -> PB 批次 一次写, 多次读 无 schema 低 线性
24
二、大数据的技术实现
目录
目录
一、大数据的研究现状 二、大数据的技术实现 三、大数据的热点应用
四、大数据应用架构和技术架构
3
一、大数据的研究现状
数字数据25%
2000
数字数据93%
2007 300EB
数字数据98%
2013 1.2ZB
《世界存储、传输与计算信息的技术能力》马丁·希尔伯特,普里西拉·洛佩兹
随着数字化信息的发展,人类产生和储存的数据量呈现爆发式增长,全球的总存储数据量的量级已突破艾 字节(EB)甚至泽字节(ZB)(1TB=1024GB ,1PB=1024TB,1EB=1024PB ,1ZB=1024EB)
17
一、大数据的研究现状
国内业内人士对大数据的认知
大量数据管理
海量计算
数据分析
大量用户 群体
数据在线
“知著、见微、晓意”-大数 据的解决之道
18
目录
目录
一、大数据的研究现状 二、大数据的技术实现 三、大数据的热点应用
四、大数据应用架构和技术架构
19
二、大数据的技术实现
诞生
MapReduce → MapReduce
不同行业不同应用会使用不同的产品和方案来满足自身的实际需要
16
一、大数据的研究现状
国外业界对大数据宽泛的认知
Volume 数据体量大
Variety 数据类型多
Velocity 处理速度快
8万亿
GB
2015全球信息量
85%
非结构化数据占 比
1s
数据处理速度
Value 数据价值
第一,数据体量巨大,根据IDC的研究数据显示,预计到2015年全世界将会有8万亿GB的信息量 第二,数据类型繁多,包括以往文本为主的结构化数据,也包括网络日志、音频、视频、图片、地理位 置信息等大量的非结构化数据 第三,处理速度快,1秒定律 第四,大数据的3V构成也导致其数据价值高但价值密度低的特点,也被称为大数据特点的第4个V,即 数据价值Value
起步:只有个别人具有使用计算机的能力; 一般发生在一个组织的财务部门 蔓延:数据处理能力迅速发展;出现数据冗余、不一致性、难以共享等问题;计算机使用效率不高 控制:成立了领导小组;采用了数据库技术;这一阶段是计算机管理变为数据管理的关键 集成:建立集中的DB及相应的IS;增加大量硬件,预算费用迅速增长 数据管理:开始选定统一的数据库平台、数据管理体系和信息管理平台,统一数据的管理和使用,各部 门、各系统基本实现资源整合、信息共享。IT系统的规划及资源利用更加高效 成熟:信息系统可以满足企业各个层次的需求,从事务处理到高层管理的决策。企业真正把IT同管理过 程结合起来,将组织内部、外部的资源充分整合和利用,提升了企业的竞争力和发展潜力
优先关注行业用户 应用特点与大数据技 术有较高的契合度, 在主客观条件上也有 较高的应用可能性。
• 纵轴契合度: 表示该用户的IT应用特 点 与大数据特性的契合 程度; • 横轴应用可能性:表示 该用户出于主客观因素 在 短期内投资大数据的 可能 性;
应用可能性
Low
Mid
High
大数据存在于各个行业领域,根基市场的关注度和技术成熟度将陆续应用
数据分享 数据检索 数据分析 数据展现
21
二、大数据的技术实现
Hadoop是个体系
Big Data Applications
Pig!
SQL RAW
HIVE
22
Zoo Keeper
二、大数据的技术实现
大数据处理的平台解决方案
传统并行计算架构
运算
并行计算 + 分布式存储
储存
传统储存架构
• 计算与存储一体,计算向数据靠拢,高效专用存储模式 • 为程序员屏蔽通性、并发、同步与一致性等问题 • 任务之间无依赖(share-nothing),具有高系统延展性 (scale-out)。
12
一、大数据的研究现状
发展过程
2004年-- 最初的版本由Doug Cutting和Mike Cafarella开始实施 2006年1月-- Doug Cutting加入雅虎 2006年2月-- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展 2006年2月-- 雅虎的网格计算团队采用Hadoop 2011年12月 – Cloudera 授权培训认证正式进入中国 2012年5月28日 -- Apache Hadoop 2.0 Alpha 版本发布 2013年12月 -- 除了社区的Apache hadoop发行版以外,cloudera、hortonworks、 mapR、EMC、IBM、INTEL、华为等都提供了hadoop商业版本