大数据时代的数据库
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团 队和资源将Hadoop发展成一个可在网络上运行的系统。 2007年,百度开始使用Hadoop做离线处理,目前差不多80%的 Hadoop集群用作日志处理。 2007年,中国移动开始在“大云”研究中使用Hadoop技术,规 模超过1000台。 2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将 其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB, 包含了1100台机器,每天处理约18000道作业,扫描500TB数据1。8
2011年8月,Cloudera公布了一项有益于合作伙伴生态系统的计
划——创建一个生态系统,以便硬件供应商、软件供应商以
及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
2011年8月,Dell与Cloudera联合推出Hadoop解决方案——
特别是NoSQL---非关系型数据库
11
那么云计算数据库是怎样提出的呢?
1、关系数据库高并发读写速度慢
2、关ቤተ መጻሕፍቲ ባይዱ数据库支撑容量有限------类似
Facebook、Twitter这样的SNS网站,
用户每天产生海量的用户动态,每月
Nosql
会产生几亿条用户动态,对于关系型 数据库来说,在一张数亿条记录的表 里面进行SQL查询,效率是极其低下
云计算核心技术
——hadoop的发展历史
2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo! 的一个Hadoop集群用209秒完成1TB数据的排序,比上一年的 纪录保持者保持的297秒快了将近90秒。 2009年5月,Yahoo的团队使用Hadoop对1 TB的数据进行排序 只花了62秒时间。 2010年5月,IBM提供了基于Hadoop 的大数据分析软件—— InfoSphere BigInsights,包括基础版和企业版。
4
进行必要的测试,
之后运维人员开
通网站
数据量
3
配置网站的域
名等工作
5
云计算所需解决的问题
——假设某家企业开发一个旅游网站
企业需要待解决的问题 1、购买新的服务器
效益
2、增加更多的运维成员
3、购怎买和样安装解设备决都这是需个要 问题呢?
时间的,可能在此期间整个
网站出现响应减慢,经常出 错、导致大量的客户流失
乃至不可忍受的。
3、关系数据库扩展性差
4、数据日趋庞大,无论是入库和查询,
都出现性能瓶颈
数据量 5、用户的应用和分析结果呈整合趋势,12 对实时性和响应时间要求越来越高
关系数据库与Hadoop分布式系统的
比较
————为何云计算数据采用Hadoop分布式系统
13
云计算的核心技术
14
云计算提出——hadoop思想
云计算概念提出 Hadoop的发展历史
Hadoop的核心技术MapReduce Hadoop核心技术数据库Hbase
其它NoSQL数据库
1
2
大数据特性
➢ 4V特性
➢ Volume(数据量大) ➢ Variety(种类多) ➢ Value(价值密度低,商业价值高 ➢ Velocity(处理速度快)
集群计算
原理:指令层次的并行
网格计算 原理:任务并行
1999
对等计算
原理:数据并行
2012 云格(Gloud=Grid+Cloud)
2007
云计算
原理:位层次的并行 (可处理长字节)
网格技术:主要解决分布在不同机 构的各种信息资源的共享问题
10
云计算:主要解决计算力和存储空 间的集中共享使用问题。
为什么云计算如此流行
Zoo Keeper
用于协调分布式系统上的 各种服务,应用场景、实 现Namenode自动切换
Avro
数据序列化工具,用于支 持大批量数据交换的应 用。支持二进制序列化
方式,可以便捷,1快6 速
地处理大量数据
云计算核心技术
——英特尔hadoop发行版组件
SQL-to-HDFS工具,利用jdbc连接关系形数据库
须考虑硬件维护、容灾等运维问题,无形
之中也为企业节省了成本、提高了经济效
益…………
7
何为云计算?(理解1)
云计算,其实就是把所有的计算 应用和信息资源都用互联网连接起来, 供个人和企业用户随时访问、分享、 管理和使用,相关的资源可以通过全 球任何一个服务器和数据中心来提取 的技术。
8
何为云计算?(理解2)
如连接Oracle要安装:ojdbc6.jar
17
如连接My-Sql要安装:mysql-connector
云计算核心技术
——hadoop的发展历史
2004年,Google发表论文,向全世界介绍了MapReduce。 2005年初,为了支持Nutch搜索引擎项目,Nutch的开发者基于 Google发布的MapReduce报告,在Nutch上开发了一个可工作的 MapReduce应用。
➢ 对传统数据库的挑战
3
用一个实例来理解云计算
4
运行期间,企 业需要雇佣专 门人员负责服 务器和网络的 维护,定期备 份数据等日常 工作
云计算所需解决的问题
——假设某家企业开发一个旅游网站
购买应用服务器 来部署这个网站
1
购买数据库服
务器来部署后
台数据库
5
2
开发人员部署代
码,上传数据库
结构和数据,并
是通过网络将庞大的计算处理程 序自动分拆成无数个较小的子程序, 再由多部服务器所组成的庞大系统搜 索、计算分析之后将处理结果回传给 用户。通过这项技术,远程的服务供 应商可以在数秒之内,达成处理数以 千万计甚至亿计的信息,达到和“超 级电脑”同样强大性能的网络服务。
9
网络计算发展趋势
1995
1998
用很多小型PC机来代替大型服务器15
云计算核心技术
——hadoop子项目家族
Pig可以看做hadoop 的客户端软件,可以 连接到hadoop集群进 行数据分析工作
数据仓库工具,可以 看成是从SQL到MapReduce的映射器
Chukwa
在Hadoop之上的 数据采集与分析框 架 、主要进行日志 采集和分析
4、淡季的时候,访问量低,
刚购买的服务器又成为资源 的浪费
成本
6
云计算所需解决的问题
——假设某家企业开发一个旅游网站
引入云计算,它可以从根本上解决这
个问题,因为云计算是通过互联网将共享
的硬件软件资源按需提供给使用者,所有
的设备都是由云计算服务商维护,这样无
论是专业的软件开发商,还是最终的客服,
都可以将全部精力集中于业务领域,而无
2011年8月,Cloudera公布了一项有益于合作伙伴生态系统的计
划——创建一个生态系统,以便硬件供应商、软件供应商以
及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。
2011年8月,Dell与Cloudera联合推出Hadoop解决方案——
特别是NoSQL---非关系型数据库
11
那么云计算数据库是怎样提出的呢?
1、关系数据库高并发读写速度慢
2、关ቤተ መጻሕፍቲ ባይዱ数据库支撑容量有限------类似
Facebook、Twitter这样的SNS网站,
用户每天产生海量的用户动态,每月
Nosql
会产生几亿条用户动态,对于关系型 数据库来说,在一张数亿条记录的表 里面进行SQL查询,效率是极其低下
云计算核心技术
——hadoop的发展历史
2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo! 的一个Hadoop集群用209秒完成1TB数据的排序,比上一年的 纪录保持者保持的297秒快了将近90秒。 2009年5月,Yahoo的团队使用Hadoop对1 TB的数据进行排序 只花了62秒时间。 2010年5月,IBM提供了基于Hadoop 的大数据分析软件—— InfoSphere BigInsights,包括基础版和企业版。
4
进行必要的测试,
之后运维人员开
通网站
数据量
3
配置网站的域
名等工作
5
云计算所需解决的问题
——假设某家企业开发一个旅游网站
企业需要待解决的问题 1、购买新的服务器
效益
2、增加更多的运维成员
3、购怎买和样安装解设备决都这是需个要 问题呢?
时间的,可能在此期间整个
网站出现响应减慢,经常出 错、导致大量的客户流失
乃至不可忍受的。
3、关系数据库扩展性差
4、数据日趋庞大,无论是入库和查询,
都出现性能瓶颈
数据量 5、用户的应用和分析结果呈整合趋势,12 对实时性和响应时间要求越来越高
关系数据库与Hadoop分布式系统的
比较
————为何云计算数据采用Hadoop分布式系统
13
云计算的核心技术
14
云计算提出——hadoop思想
云计算概念提出 Hadoop的发展历史
Hadoop的核心技术MapReduce Hadoop核心技术数据库Hbase
其它NoSQL数据库
1
2
大数据特性
➢ 4V特性
➢ Volume(数据量大) ➢ Variety(种类多) ➢ Value(价值密度低,商业价值高 ➢ Velocity(处理速度快)
集群计算
原理:指令层次的并行
网格计算 原理:任务并行
1999
对等计算
原理:数据并行
2012 云格(Gloud=Grid+Cloud)
2007
云计算
原理:位层次的并行 (可处理长字节)
网格技术:主要解决分布在不同机 构的各种信息资源的共享问题
10
云计算:主要解决计算力和存储空 间的集中共享使用问题。
为什么云计算如此流行
Zoo Keeper
用于协调分布式系统上的 各种服务,应用场景、实 现Namenode自动切换
Avro
数据序列化工具,用于支 持大批量数据交换的应 用。支持二进制序列化
方式,可以便捷,1快6 速
地处理大量数据
云计算核心技术
——英特尔hadoop发行版组件
SQL-to-HDFS工具,利用jdbc连接关系形数据库
须考虑硬件维护、容灾等运维问题,无形
之中也为企业节省了成本、提高了经济效
益…………
7
何为云计算?(理解1)
云计算,其实就是把所有的计算 应用和信息资源都用互联网连接起来, 供个人和企业用户随时访问、分享、 管理和使用,相关的资源可以通过全 球任何一个服务器和数据中心来提取 的技术。
8
何为云计算?(理解2)
如连接Oracle要安装:ojdbc6.jar
17
如连接My-Sql要安装:mysql-connector
云计算核心技术
——hadoop的发展历史
2004年,Google发表论文,向全世界介绍了MapReduce。 2005年初,为了支持Nutch搜索引擎项目,Nutch的开发者基于 Google发布的MapReduce报告,在Nutch上开发了一个可工作的 MapReduce应用。
➢ 对传统数据库的挑战
3
用一个实例来理解云计算
4
运行期间,企 业需要雇佣专 门人员负责服 务器和网络的 维护,定期备 份数据等日常 工作
云计算所需解决的问题
——假设某家企业开发一个旅游网站
购买应用服务器 来部署这个网站
1
购买数据库服
务器来部署后
台数据库
5
2
开发人员部署代
码,上传数据库
结构和数据,并
是通过网络将庞大的计算处理程 序自动分拆成无数个较小的子程序, 再由多部服务器所组成的庞大系统搜 索、计算分析之后将处理结果回传给 用户。通过这项技术,远程的服务供 应商可以在数秒之内,达成处理数以 千万计甚至亿计的信息,达到和“超 级电脑”同样强大性能的网络服务。
9
网络计算发展趋势
1995
1998
用很多小型PC机来代替大型服务器15
云计算核心技术
——hadoop子项目家族
Pig可以看做hadoop 的客户端软件,可以 连接到hadoop集群进 行数据分析工作
数据仓库工具,可以 看成是从SQL到MapReduce的映射器
Chukwa
在Hadoop之上的 数据采集与分析框 架 、主要进行日志 采集和分析
4、淡季的时候,访问量低,
刚购买的服务器又成为资源 的浪费
成本
6
云计算所需解决的问题
——假设某家企业开发一个旅游网站
引入云计算,它可以从根本上解决这
个问题,因为云计算是通过互联网将共享
的硬件软件资源按需提供给使用者,所有
的设备都是由云计算服务商维护,这样无
论是专业的软件开发商,还是最终的客服,
都可以将全部精力集中于业务领域,而无