数据仓库技术PPT课件( 25页)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

像外行一样思考,像专家一样实践
2019/5/31
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24

5、世上最美好的事是:我已经长大,父母还未老;我有能力报答,父母仍然健康。

6、没什么可怕的,大家都一样,在试探中不断前行。

7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。
8
数据仓库的架构类型
2019/5/31
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
12
2019/5/31
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。
MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。
பைடு நூலகம்

8、不要活在别人眼中,更不要活在别人嘴中。世界不会因为你的抱怨不满而为你改变,你能做到的只有改变你自己!

9、欲戴王冠,必承其重。哪有什么好命天赐,不都是一路披荆斩棘才换来的。

10、放手如拔牙。牙被拔掉的那一刻,你会觉得解脱。但舌头总会不由自主地往那个空空的牙洞里舔,一天数次。不痛了不代表你能完全无视,留下的那个空缺永远都在,偶尔甚至会异常挂念。适应是需要时间的,但牙总是要拔,因为太痛,所以终归还是要放手,随它去。
2019/5/31
杭州斯凯网络科技有限公司
16
MapReduce的分布和可靠性
化简操作工作方式很类似,但是由于化简操作 在并行能力较差,主节点会尽量把化简操作调度 在一个节点上,或者离需要操作的数据尽可能近 的节点上了;这个特性可以满足Google的需求, 因为他们有足够的带宽,他们的内部网络没有那 么多的机器。
MapReduce会生成大量的临时文件,为了提高效率, 它利用Google文件系统来管理和访问这些文件。
2019/5/31
杭州斯凯网络科技有限公司
18
数据仓库的架构比较
2019/5/31
杭州斯凯网络科技有限公司
19
硬件物理架构比较
数据仓库的物理架构,包含硬件物理架构和软件物 理架构。硬件物理架构包含集中式和分布式两种,在企业 里面都有运用。
4.协同工作。解决多人协同开发问题。
2019/5/31
杭州斯凯网络科技有限公司
7
数据仓库的架构设计一些考虑因素
5.调度。能否很方便的一目了然的看到整体调度,站在一 个非常高的高度来管理各种数据流。 6.兼容性。能否兼容各种异构数据。 7.准确的监控系统。 8.高效的开发框架。
2019/5/31
杭州斯凯网络科技有限公司
封闭式硬件架构代表厂商有teradata,其硬 件是专属的,必须使用特殊的硬件才能运行。 开放式硬件架构的代表有oracle,可以运行 在各种硬件上,不过开放和封闭之间的界限 也逐步的融合。
2019/5/31
杭州斯凯网络科技有限公司
3
数据仓库的目前的现状
Greenplum在这两方面取长补短,所提供 的该公司的旗舰产品——Greenplum数据引 擎就是特别为支持新型数据仓库和大规模分 析处理而设计开发的,可以同时支持SQL和 MapReduce技术。Greenplum数据引擎对有PB 量级数据的大型公司提供数据处理能力。基 于Greenplum数据引擎的解决方案的核心优 势在于可将原来长达数小时甚至数天的运算 时间缩短为几分钟。
2019/5/31
杭州斯凯网络科技有限公司
17
MapReduce的用途
在Google,MapReduce用在非常广泛的应用程序中, 包括“分布grep,分布排序,web连接图反转,每台机器 的词矢量,web访问日志分析,反向索引构建,文档聚类, 机器学习,基于统计的机器翻译...”值得注意的是, MapReduce实现以后,它被用来重新生成Google的整个索 引。

6、人性本善,纯如清溪流水凝露莹烁。欲望与情绪如风沙袭扰,把原本如天空旷蔚蓝的心蒙蔽。但我知道,每个人的心灵深处,不管乌云密布还是阴淤苍茫,但依然有一道彩虹,亮丽于心中某处。

7、每个人的心里,都藏着一个了不起的自己,只要你不颓废,不消极,一直悄悄酝酿着乐观,培养着豁达,坚持着善良,只要在路上,就没有到达不了的远方!
因为数据仓库的主要的工作量和维护成本是ETL, 而斯凯目前大部分数据都放在Oracle数据库中,因 而采用Oracle RAC 方案ETL时间会大大缩小。
2019/5/31
杭州斯凯网络科技有限公司
22
Oracle RAC和GreenPlum风险评估
Oracle RAC 方案是基于成熟的架构,被业界采 用最广泛的方案,因而风险相对小很多
2019/5/31
杭州斯凯网络科技有限公司
21
Oracle RAC和GreenPlum成本比较
Oracle RAC 包括软件成本,维护成本,硬件成 本,由于Oracle采用shared everything方式,因 而除了Oracle RAC本身的软件成本,维护成本外, 还有很大一块存储成本。
而GreenPlum是采用shared nothing方式,可以 采用廉价的硬盘存储方式。软件成本相对于Oracle 来说也便宜很多。
2019/5/31
杭州斯凯网络科技有限公司
4
数据仓库的软件架构
数据仓库的软件架构选择更加丰富 数据库软件 ETL软件 展现软件 数据挖掘软件 每一种类型里面都具备非常多的选择。
2019/5/31
杭州斯凯网络科技有限公司
5
ETL约占整个项目的70%
ETL,Extraction-Transformation-Loading的缩写, 中文名称为数据抽取、转换和加载。
集中式硬件物理架构偏向于使用非常power的小型机 或者大型机,非常高端的海量存储,管理简单,在不计投 入的情况下性能也能满足企业需求。
分布式硬件物理架构目前非常流行,特征是采用价 格低廉的中低端机器组成计算集群,不同的技术驱动下, 在shared nothing的架构下可以采用本机的硬盘, 在 shared everything的架构下偏向使用集中存储,分布式 集群在网络上的要求比较高,扩展性比较好,配合好的软 件可以达到线性扩展的要求。
而GreenPlum方案是目前最近的解决方案,国外 VideoEgg和Skype等公司采用。09年刚刚进入中国, 目前国内还没有公司正式采用,淘宝,阿里巴巴 B2B公司在试用。因而遇到的风险相对会大很多
2019/5/31
杭州斯凯网络科技有限公司
23
提问与讨论
しろうと
かんが
くろうと
じっこう
素人のように考え、玄人として実行する
数据仓库
顾安宁
2019/5/31
杭州斯凯网络科技有限公司
1
内容
数据仓库一些特点 数据仓库的架构 Oracle RAC架构 GreenPlum架构 MapReduce的概念 架构比较 风险评估
2019/5/31
杭州斯凯网络科技有限公司
2
数据仓库的目前的现状
软件架构
硬件架构 硬软架构又可以分成封闭式和开放式。

ETL负责将分布的、异构数据源中的数据如关系数据、 平面数据文件等抽取到临时中间层后进行清洗、转换、集 成,最后加载到数据仓库或数据集市中,成为联机分析处 理、数据挖掘的基础。
如果说数据仓库的模型设计是一座大厦的设计蓝图, 数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个 项目中最难部分是用户需求分析和模型设计,而ETL规则 设计和实施则是工作量最大的,约占整个项目的60%~80%,
事实上,每个元素都是被独立操作的,而原始列 表没有被更改,因为这里创建了一个新的列表来保存新的 答案。这就是说,Map操作是可以高度并行的,这对高性 能要求的应用以及并行计算领域的需求非常有用。
2019/5/31
杭州斯凯网络科技有限公司
14
MapReduce 化简概念
而化简操作指的是对一个列表的元素进行适 当的合并(继续看前面的例子,如果有人想知道 班级的平均分该怎么做?他可以定义一个化简函 数,通过让列表中的元素跟自己的相邻的元素相 加的方式把列表减半,如此递归运算直到列表只 剩下一个元素,然后用这个元素除以人数,就得 到了平均分。)。虽然他不如映射函数那么并行, 但是因为化简总是有一个简单的答案,大规模的 运算相对独立,所以化简函数在高度并行环境下 也很有用。

8、世上的事,只要肯用心去学,没有一件是太晚的。要始终保持敬畏之心,对阳光,对美,对痛楚。

9、别再去抱怨身边人善变,多懂一些道理,明白一些事理,毕竟每个人都是越活越现实。

10、山有封顶,还有彼岸,慢慢长途,终有回转,余味苦涩,终有回甘。

11、人生就像是一个马尔可夫链,你的未来取决于你当下正在做的事,而无关于过去做完的事。
当前的软件实现是指定一个Map(映射)函数,用来 把一组键值对映射成一组新的键值对,指定并发的Reduce (化简)函数,用来保证所有映射的键值对中的每一个共 享相同的键组。
2019/5/31
杭州斯凯网络科技有限公司
13
MapReduce 映射概念
简单说来,一个映射函数就是对一些独立元素组成的 概念上的列表(例如,一个测试成绩的列表)的每一个元 素进行指定的操作(比如前面的例子里,有人发现所有学 生的成绩都被高估了一分,他可以定义一个“减一”的映 射函数,用来修正这个错误。)。

15、如果没有人为你遮风挡雨,那就学会自己披荆斩棘,面对一切,用倔强的骄傲,活出无人能及的精彩。

5、人生每天都要笑,生活的下一秒发生什么,我们谁也不知道。所以,放下心里的纠结,放下脑中的烦恼,放下生活的不愉快,活在当下。人生喜怒哀乐,百般形态,不如在心里全部淡然处之,轻轻一笑,让心更自在,生命更恒久。积极者相信只有推动自己才能推动世界,只要推动自己就能推动世界。
2019/5/31
杭州斯凯网络科技有限公司
15
MapReduce的分布和可靠性
MapReduce通过把对数据集的大规模操作分发 给网络上的每个节点实现可靠性;每个节点会周 期性的把完成的工作和状态的更新报告回来。如 果一个节点保持沉默超过一个预设的时间间隔, 主节点(类同Google File System中的主服务器) 记录下这个节点状态为死亡,并把分配给这个节 点的数据发到别的节点。每个操作使用命名文件 的原子操作以确保不会发生并行线程间的冲突; 当文件被改名的时候,系统可能会把他们复制到 任务名以外的另一个名字上去。(避免副作用)。

12、女人,要么有美貌,要么有智慧,如果两者你都不占绝对优势,那你就选择善良。

13、时间,抓住了就是黄金,虚度了就是流水。理想,努力了才叫梦想,放弃了那只是妄想。努力,虽然未必会收获,但放弃,就一定一无所获。

14、一个人的知识,通过学习可以得到;一个人的成长,就必须通过磨练。若是自己没有尽力,就没有资格批评别人不用心。开口抱怨很容易,但是闭嘴努力的人更加值得尊敬。
2019/5/31
杭州斯凯网络科技有限公司
6
数据仓库的架构设计一些考虑因素
1.成本。成本永远是企业关心的一个核心问题,特别在如 今经济寒冬,更是如此。
2.效率。能否高效的处理海量的数据是一个基础要素,搞 数据仓库的都知道,数据量永远是一个经常被拿出来讨论 的话题。
3.线性扩展。能支持线性扩展的系统在计划支撑多年的系 统中特别重要,可以非常方便的做出年度预算。
相关文档
最新文档