大数据时代的数据库(PPT 75页)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
8
何为云计算?(理解1)
云计算,其实就是把所有的计算 应用和信息资源都用互联网连接起来, 供个人和企业用户随时访问、分享、 管理和使用,相关的资源可以通过全 球任何一个服务器和数据中心来提取 的技术。
9
பைடு நூலகம்
何为云计算?(理解2)
是通过网络将庞大的计算处理程 序自动分拆成无数个较小的子程序, 再由多部服务器所组成的庞大系统搜 索、计算分析之后将处理结果回传给 用户。通过这项技术,远程的服务供 应商可以在数秒之内,达成处理数以 千万计甚至亿计的信息,达到和“超 级电脑”同样强大性能的网络服务。
通网站
配置网站的域 名等工作
6
云计算所需解决的问题
——假设某家企业开发一个旅游网站
7
云计算所需解决的问题
——假设某家企业开发一个旅游网站
引入云计算,它可以从根本上解决这 个问题,因为云计算是通过互联网将共享 的硬件软件资源按需提供给使用者,所有 的设备都是由云计算服务商维护,这样无 论是专业的软件开发商,还是最终的客服, 都可以将全部精力集中于业务领域,而无 须考虑硬件维护、容灾等运维问题,无形 之中也为企业节省了成本、提高了经济效 益…………
20
Hadoop 框架
云计算核心技术
1、管理文件系统的命名空间 记录每个文件数据块在各个 Datanode上的位置和副本信息 1、2、负协责调所客在户物端理对节文点件的的存访储问管理 2、3、一记次录写命入名,空多间次内读的取改动或空 3、间文本件身由属数性据的块改组动成,典型的块 大4小、是Na6m4MenBode使用事务日志记 4、录数HD据F块S元尽数量据散的布变道化各。个使节用点映 像文件存储文件系统的命名空间, 包括文件映射,文件属性等
云计算核心技术
——hadoop的发展历史
2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo! 的一个Hadoop集群用209秒完成1TB数据的排序,比上一年的 纪录保持者保持的297秒快了将近90秒。 2009年5月,Yahoo的团队使用Hadoop对1 TB的数据进行排序 只花了62秒时间。 2010年5月,IBM提供了基于Hadoop 的大数据分析软件—— InfoSphere BigInsights,包括基础版和企业版。
关系数据库与Hadoop分布式系统的
比较
————为何云计算数据采用Hadoop分布式系统
14
15
云计算提出——hadoop思想
16
云计算核心技术
——hadoop子项目家族
Pig可以看做hadoop 的客户端软件,可以 连接到hadoop集群进 行数据分析工作
数据仓库工具,可以 看成是从SQL到MapReduce的映射器
10
网络计算发展趋势
1995
1998
集群计算
原理:指令层次的并行
网格计算 原理:任务并行
1999
对等计算
原理:数据并行
2012 云格(Gloud=Grid+Cloud)
2007
云计算
原理:位层次的并行 (可处理长字节)
网格技术:主要解决分布在不同机 构的各种信息资源的共享问题
云计算:主要解决计算力和存储11空 间的集中共享使用问题。
2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团 队和资源将Hadoop发展成一个可在网络上运行的系统。 2007年,百度开始使用Hadoop做离线处理,目前差不多80%的 Hadoop集群用作日志处理。 2007年,中国移动开始在“大云”研究中使用Hadoop技术,规 模超过1000台。 2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将 其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB, 包含了1100台机器,每天处理约18000道作业,扫描500TB数据19。
大数据时代的数据库
1
云计算概念提出 Hadoop的发展历史 Hadoop的核心技术MapReduce Hadoop核心技术数据库Hbase
其它NoSQL数据库
2
3
大数据特性
➢4V特性
➢Volume(数据量大) ➢Variety(种类多) ➢Value(价值密度低,商业价值高 ➢Velocity(处理速度快)
2011年8月,Cloudera公布了一项有益于合作伙伴生态系统的计 划——创建一个生态系统,以便硬件供应商、软件供应商以 及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。 2011年8月,Dell与Cloudera联合推出Hadoop解决方案—— Cloudera Enterprise。
Chukwa
在Hadoop之上的 数据采集与分析框 架 、主要进行日志 采集和分析
Zoo Keeper
用于协调分布式系统上的 各种服务,应用场景、实 现Namenode自动切换
Avro
数据序列化工具,用于支 持大批量数据交换的应 用。支持二进制序列化 方式,可以便捷,快速
地处理大量数据17
云计算核心技术
➢对传统数据库的挑战
4
5
运行期间,企 业需要雇佣专 门人员负责服 务器和网络的 维护,定期备 份数据等日常 工作
云计算所需解决的问题
——假设某家企业开发一个旅游网站
购买应用服务器 来部署这个网站
1
购买数据库服
务器来部署后
台数据库
5
2
开发人员部署代
码,上传数据库
结构和数据,并
4
3
进行必要的测试,
之后运维人员开
12
那么云计算数据库是怎样提出的呢?
1、关系数据库高并发读写速度慢 2、关系数据库支撑容量有限------类似
Facebook、Twitter这样的SNS网站, 用户每天产生海量的用户动态,每月 会产生几亿条用户动态,对于关系型 数据库来说,在一张数亿条记录的表 里面进行SQL查询,效率是极其低下 乃至不可忍受的。 3、关系数据库扩展性差 4、数据日趋庞大,无论是入库和查询, 都出现性能瓶颈 5、用户的应用和分析结果呈整合趋势, 对实时性和响应时间要求越来越高 13
——英特尔hadoop发行版组件
18
云计算核心技术
——hadoop的发展历史
2004年,Google发表论文,向全世界介绍了MapReduce。 2005年初,为了支持Nutch搜索引擎项目,Nutch的开发者基于 Google发布的MapReduce报告,在Nutch上开发了一个可工作的 MapReduce应用。
相关文档
最新文档