大数据研究现状及热点应用介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
一、Google大数据 - 大数据的平台搭建之道
Google大数据的诞生
Google云计算
MapReduce BigTable GFS
Chubby
1998年,斯坦福大学的博士生拉里·佩奇和谢尔盖·布林在车库中创办了Google公司。两位年轻人没有找 到大笔的投资,不得不用廉价PC和自己动手做的小软件来构建网站,所依靠的最核心的3项技术就是 Google的分布式文件系统GFS、MapReduce编程模式和分布式数据库BigTable。
大数据交流提纲
讲解和时间安排如下:
顺序
题目
侧重点
讲解人 时间
1
大数据研究现状及热点应用介绍
大数据发展、热点 应用、架构
黄绍辉 9:00~10:00
2 化工销售大数据应用设想
大数据价值、数据 资源分析、应用展 望
索寒生 10:00~10:30
大数据研究现状及热点应用介绍
2014年5月
石化盈科信息技术有限责任公司MES事业部
政府 15%
其他 4%
交通 4%
能源 8%
教育 4%
零售 6%
制造 9%
互联网 15%
电信 11%
医疗 9%
流通 4%
金融 11%
CCW Research 2012/04
7
一、豌豆实验 - 大数据的应用之道
孟德尔(Gregor Johann Mendel)(1822~1884)奥地利人,是遗传学的奠基人。
目录
目录
一、大数据的研究现状 二、大数据的技术实现 三、大数据的热点应用
四、大数据应用架构和技术架构
3
一、大数据的研究现状
数字数据25%
2000
数字数据93%
2007 300EB
数字数据98%
2013 1.2ZB
《世界存储、传输与计算信息的技术能力》马丁·希尔伯特,普里西拉·洛佩兹
随着数字化信息的发展,人类产生和储存的数据量呈现爆发式增长,全球的总存储数据量的量级已突破艾字 节(EB)甚至泽字节(ZB)(1TB=1024GB ,1PB=1024TB,1EB=1024PB ,1ZB=1024EB)
经过15年的发展,Google在全球部署了大约200万台服务器,每天处理数以亿计的搜索请求,存储每天 新增的24PB数据
10
一、诺兰模型
美国管理信息系统专家诺兰(Richard·L·Nolan)通过对200多个公司、部门发展信息系统的 实践和经验的总结,提出了著名的信息系统进化的阶段模型,即诺兰模型。
2000年,数字存储信息只占全球数据量的25%,75%的信息存储在报纸、书籍、胶片、磁带上。到2007年 ,人类共存储超过300EB的数据,其中数字数据占到93%。到2013年,全球总存储数据量达到1.2ZB,其中 数字数据占比将超过98%。数字数据的存储量维持每三年增长一倍的高速增长
信息数据化程度的大幅提升,推动了大数据的商业价值显现
11
一、诺兰模型的总结
数据管理阶段,企业管理高层已经意识到企业信息战略的重要性,开始着手企业信息资源的统一规划 数据成熟阶段,企业和数据同步发展,数据是企业整体面貌的镜像,企业“以数据为镜”做出发展决策 尽管诺兰提出这一模型的时间是 20 世纪 80 年代,但在 30 多年后的今天,人们不难发现 他预见的准 确性。企业的信息化建设必然会走到以数据为中心的发展阶段,无论是否愿意,这条规律都是不可违背
6
一、大数据的研究现状
1 2011年-2016年中国大数据市场规模
100
80
计世资讯认为,2011年是中国大数据市场元年,
一些大数据产品已经推出,部分行业也有大数据 60
应用案例的产生。2012年-2016年,将迎来大数
40
据市场的飞速发展
20
计世资讯预测,2013年大数据市场迎来增速为 0 138.3%的飞跃,2016年整个市场规模逼近百亿
8
一、曹冲称象 - 大数据的分布处理之道
工具(秤)的处理能力有限,当超出其能力范围之后,应当如何处理? 是造更大的工具(超级的大秤),还是智慧地将要称的物(大象)拆分成对等的物(石块)? “分而治之”是处理大事物的解决之道,只需将大事物分解到小工具能处理的大小,复制更多的小工具来 同时处理,最后将每一个部分的结果汇总起来,就是对大事物的处理结果
1856年,孟德尔就开始了长达8年的豌豆实验。从不同种子供应商买来34个品种的豌豆,从中挑选出22个 品种用于实验。它们都具有某种可以相互区分的稳定性状,例如高茎或矮茎、圆料或皱料、灰色种皮或白 色种皮等。 通过人工培植这些豌豆,对不同代的豌豆的性状和数目进行细致入微的观察、计数和分析。运用这样的实 验方法需要极大的耐心和严谨的态度。 起初,孟德尔豌豆实验并不是有意为探索遗传规律而进行的。初衷是希望获得优良品种,只是在试验的过 程中,逐步把重点转向了探索遗传规律。除了豌豆以外,孟德尔还对其他植物作了大量的类似研究,其中 包括玉米、紫罗兰和紫茉莉等,以证明1865年发现的遗传规律对大多数植物都适用。
起步:只有个别人具有使用计算机的能力; 一般发生在一个组织的财务部门 蔓延:数据处理能力迅速发展;出现数据冗余、不一致性、难以共享等问题;计算机使用效率不高 控制:成立了领导小组;采用了数据库技术;这一阶段是计算机管理变为数据管理的关键 集成:建立集中的DB及相应的IS;增加大量硬件,预算费用迅速增长 数据管理:开始选定统一的数据库平台、数据管理体系和信息管理平台,统一数据的管理和使用,各部门 、各系统基本实现资源整合、信息共享。IT系统的规划及资源利用更加高效 成熟:信息系统可以满足企业各个层次的需求,从事务处理到高层管理的决策。企业真正把IT同管理过程 结合起来,将组织内部、外部的资源充分整合和利用,提升了企业的竞争力和发展潜力
4
一、大数据的研究现状
1TB=1024GB ,1PB=1024TB,1EB=1024PB , 1ZB=1024EB
数字化信息的处理,以容量为标准的划分
5
一、大数据的研究现状
来源:Wikibon公司,2012年
据Wikibon公司测算,2012年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元,年 均增速达到58%,是同期IT产业增速的7倍
138%
150%
107% 110%
120%
92%90
81%
%
60%
30%
0%
0%
市场规模 增长率
CCW Research 2012/04
2 2012年各行业大数据市场规模
计世资讯预Βιβλιοθήκη Baidu,2012年政府、互联网、电信、 金融的大数据市场规模较大,四个行业将占据一 半市场份额。
由于各个行业都存在大数据应用需求,潜在市 场空间非常可观。
一、Google大数据 - 大数据的平台搭建之道
Google大数据的诞生
Google云计算
MapReduce BigTable GFS
Chubby
1998年,斯坦福大学的博士生拉里·佩奇和谢尔盖·布林在车库中创办了Google公司。两位年轻人没有找 到大笔的投资,不得不用廉价PC和自己动手做的小软件来构建网站,所依靠的最核心的3项技术就是 Google的分布式文件系统GFS、MapReduce编程模式和分布式数据库BigTable。
大数据交流提纲
讲解和时间安排如下:
顺序
题目
侧重点
讲解人 时间
1
大数据研究现状及热点应用介绍
大数据发展、热点 应用、架构
黄绍辉 9:00~10:00
2 化工销售大数据应用设想
大数据价值、数据 资源分析、应用展 望
索寒生 10:00~10:30
大数据研究现状及热点应用介绍
2014年5月
石化盈科信息技术有限责任公司MES事业部
政府 15%
其他 4%
交通 4%
能源 8%
教育 4%
零售 6%
制造 9%
互联网 15%
电信 11%
医疗 9%
流通 4%
金融 11%
CCW Research 2012/04
7
一、豌豆实验 - 大数据的应用之道
孟德尔(Gregor Johann Mendel)(1822~1884)奥地利人,是遗传学的奠基人。
目录
目录
一、大数据的研究现状 二、大数据的技术实现 三、大数据的热点应用
四、大数据应用架构和技术架构
3
一、大数据的研究现状
数字数据25%
2000
数字数据93%
2007 300EB
数字数据98%
2013 1.2ZB
《世界存储、传输与计算信息的技术能力》马丁·希尔伯特,普里西拉·洛佩兹
随着数字化信息的发展,人类产生和储存的数据量呈现爆发式增长,全球的总存储数据量的量级已突破艾字 节(EB)甚至泽字节(ZB)(1TB=1024GB ,1PB=1024TB,1EB=1024PB ,1ZB=1024EB)
经过15年的发展,Google在全球部署了大约200万台服务器,每天处理数以亿计的搜索请求,存储每天 新增的24PB数据
10
一、诺兰模型
美国管理信息系统专家诺兰(Richard·L·Nolan)通过对200多个公司、部门发展信息系统的 实践和经验的总结,提出了著名的信息系统进化的阶段模型,即诺兰模型。
2000年,数字存储信息只占全球数据量的25%,75%的信息存储在报纸、书籍、胶片、磁带上。到2007年 ,人类共存储超过300EB的数据,其中数字数据占到93%。到2013年,全球总存储数据量达到1.2ZB,其中 数字数据占比将超过98%。数字数据的存储量维持每三年增长一倍的高速增长
信息数据化程度的大幅提升,推动了大数据的商业价值显现
11
一、诺兰模型的总结
数据管理阶段,企业管理高层已经意识到企业信息战略的重要性,开始着手企业信息资源的统一规划 数据成熟阶段,企业和数据同步发展,数据是企业整体面貌的镜像,企业“以数据为镜”做出发展决策 尽管诺兰提出这一模型的时间是 20 世纪 80 年代,但在 30 多年后的今天,人们不难发现 他预见的准 确性。企业的信息化建设必然会走到以数据为中心的发展阶段,无论是否愿意,这条规律都是不可违背
6
一、大数据的研究现状
1 2011年-2016年中国大数据市场规模
100
80
计世资讯认为,2011年是中国大数据市场元年,
一些大数据产品已经推出,部分行业也有大数据 60
应用案例的产生。2012年-2016年,将迎来大数
40
据市场的飞速发展
20
计世资讯预测,2013年大数据市场迎来增速为 0 138.3%的飞跃,2016年整个市场规模逼近百亿
8
一、曹冲称象 - 大数据的分布处理之道
工具(秤)的处理能力有限,当超出其能力范围之后,应当如何处理? 是造更大的工具(超级的大秤),还是智慧地将要称的物(大象)拆分成对等的物(石块)? “分而治之”是处理大事物的解决之道,只需将大事物分解到小工具能处理的大小,复制更多的小工具来 同时处理,最后将每一个部分的结果汇总起来,就是对大事物的处理结果
1856年,孟德尔就开始了长达8年的豌豆实验。从不同种子供应商买来34个品种的豌豆,从中挑选出22个 品种用于实验。它们都具有某种可以相互区分的稳定性状,例如高茎或矮茎、圆料或皱料、灰色种皮或白 色种皮等。 通过人工培植这些豌豆,对不同代的豌豆的性状和数目进行细致入微的观察、计数和分析。运用这样的实 验方法需要极大的耐心和严谨的态度。 起初,孟德尔豌豆实验并不是有意为探索遗传规律而进行的。初衷是希望获得优良品种,只是在试验的过 程中,逐步把重点转向了探索遗传规律。除了豌豆以外,孟德尔还对其他植物作了大量的类似研究,其中 包括玉米、紫罗兰和紫茉莉等,以证明1865年发现的遗传规律对大多数植物都适用。
起步:只有个别人具有使用计算机的能力; 一般发生在一个组织的财务部门 蔓延:数据处理能力迅速发展;出现数据冗余、不一致性、难以共享等问题;计算机使用效率不高 控制:成立了领导小组;采用了数据库技术;这一阶段是计算机管理变为数据管理的关键 集成:建立集中的DB及相应的IS;增加大量硬件,预算费用迅速增长 数据管理:开始选定统一的数据库平台、数据管理体系和信息管理平台,统一数据的管理和使用,各部门 、各系统基本实现资源整合、信息共享。IT系统的规划及资源利用更加高效 成熟:信息系统可以满足企业各个层次的需求,从事务处理到高层管理的决策。企业真正把IT同管理过程 结合起来,将组织内部、外部的资源充分整合和利用,提升了企业的竞争力和发展潜力
4
一、大数据的研究现状
1TB=1024GB ,1PB=1024TB,1EB=1024PB , 1ZB=1024EB
数字化信息的处理,以容量为标准的划分
5
一、大数据的研究现状
来源:Wikibon公司,2012年
据Wikibon公司测算,2012年全球大数据产值已经达到51亿美元。预计到2017年将达到534亿美元,年 均增速达到58%,是同期IT产业增速的7倍
138%
150%
107% 110%
120%
92%90
81%
%
60%
30%
0%
0%
市场规模 增长率
CCW Research 2012/04
2 2012年各行业大数据市场规模
计世资讯预Βιβλιοθήκη Baidu,2012年政府、互联网、电信、 金融的大数据市场规模较大,四个行业将占据一 半市场份额。
由于各个行业都存在大数据应用需求,潜在市 场空间非常可观。