数据仓库技术

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


讲真话的最大好处就是:不必记得自 己讲过 什么。 。2020 年8月上 午11时 21分20 .8.1111 :21Aug ust 11, 2020

我生平最高兴的,就是我答应帮助人 家去做 的事, 自己不 仅是完 成了, 而且比 他们要 求的做 得更好 ,当完 成这些 信诺时 ,那种 兴奋的 感觉是 难以形 容的…… 。2020 年8月1 1日星 期二11 时21分4 9秒11: 21:4911 August 2020

对于攀登者来说,失掉往昔的足迹并 不可惜 ,迷失 了继续 前时的 方向却 很危险 。。202 0年8月 11日上 午11时 21分20 .8.1120 .8.11

江无回头浪,人无再少年。年华若虚 度,老 来恨不 浅。时 光容易 逝,岁 月莫消 遣。碌 碌而无 为,生 命不值 钱。。2 020年8 月11日 星期二 上午11 时21分 49秒11 :21:492 0.8.11
MapReduce会生成大量的临时文件,为了提高效率, 它利用Google文件系统来管理和访问这些文件。
2020/8/11
杭州斯凯网络科技有限公司
18
数据仓库的架构比较
2020/8/11
杭州斯凯网络科技有限公司
19
硬件物理架构比较
数据仓库的物理架构,包含硬件物理架构和软件物 理架构。硬件物理架构包含集中式和分布式两种,在企业 里面都有运用。
8
数据仓库的架构类型
2020/8/11
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2020/8/11
百度文库
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2020/8/11
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2020/8/11
杭州斯凯网络科技有限公司
12
4.协同工作。解决多人协同开发问题。
2020/8/11
杭州斯凯网络科技有限公司
7
数据仓库的架构设计一些考虑因素
5.调度。能否很方便的一目了然的看到整体调度,站在一 个非常高的高度来管理各种数据流。 6.兼容性。能否兼容各种异构数据。 7.准确的监控系统。 8.高效的开发框架。
2020/8/11
杭州斯凯网络科技有限公司
当前的软件实现是指定一个Map(映射)函数,用来 把一组键值对映射成一组新的键值对,指定并发的Reduce (化简)函数,用来保证所有映射的键值对中的每一个共 享相同的键组。
2020/8/11
杭州斯凯网络科技有限公司
13
MapReduce 映射概念
简单说来,一个映射函数就是对一些独立元素组成的 概念上的列表(例如,一个测试成绩的列表)的每一个元 素进行指定的操作(比如前面的例子里,有人发现所有学 生的成绩都被高估了一分,他可以定义一个“减一”的映 射函数,用来修正这个错误。)。
2020/8/11
杭州斯凯网络科技有限公司
16
MapReduce的分布和可靠性
化简操作工作方式很类似,但是由于化简操作 在并行能力较差,主节点会尽量把化简操作调度 在一个节点上,或者离需要操作的数据尽可能近 的节点上了;这个特性可以满足Google的需求, 因为他们有足够的带宽,他们的内部网络没有那 么多的机器。
集中式硬件物理架构偏向于使用非常power的小型机 或者大型机,非常高端的海量存储,管理简单,在不计投 入的情况下性能也能满足企业需求。
分布式硬件物理架构目前非常流行,特征是采用价 格低廉的中低端机器组成计算集群,不同的技术驱动下, 在shared nothing的架构下可以采用本机的硬盘, 在 shared everything的架构下偏向使用集中存储,分布式 集群在网络上的要求比较高,扩展性比较好,配合好的软 件可以达到线性扩展的要求。
ETL负责将分布的、异构数据源中的数据如关系数据、 平面数据文件等抽取到临时中间层后进行清洗、转换、集 成,最后加载到数据仓库或数据集市中,成为联机分析处 理、数据挖掘的基础。
如果说数据仓库的模型设计是一座大厦的设计蓝图, 数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个 项目中最难部分是用户需求分析和模型设计,而ETL规则 设计和实施则是工作量最大的,约占整个项目的60%~80%,
你既然认准一条道路,何必去打听要 走多久 。。202 0年8月 11日星 期二11 时21分 49秒Tuesday, August 11, 2020

商业竞争的胜负最终决定在经营者本 身的修 养上。 。20.8.1 12020 年8月11 日星期 二11时 21分49 秒20.8. 11
谢谢各位!
2020/8/11
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。

没有等出来的辉煌;只有走出来的美 丽。。2 0.8.111 1:21:49 11:21A ug-201 1-Aug-2 0

生活不应该过于拘泥,过于刻板,只 要有可 能就要 任其自 由发挥 。11:21: 4911:2 1:4911: 21Tues day, August 11, 2020

所有目标都是黑暗的,只有行动才与 光明相 伴!。2 0.8.112 0.8.111 1:21:49 11:21:4 9Augus t 11, 2020
而GreenPlum方案是目前最近的解决方案,国外 VideoEgg和Skype等公司采用。09年刚刚进入中国, 目前国内还没有公司正式采用,淘宝,阿里巴巴 B2B公司在试用。因而遇到的风险相对会大很多
2020/8/11
杭州斯凯网络科技有限公司
23
提问与讨论
しろうと
かんが
くろうと
じっこう
素人のように考え、玄人として実行する
2020/8/11
杭州斯凯网络科技有限公司
17
MapReduce的用途
在Google,MapReduce用在非常广泛的应用程序中, 包括“分布grep,分布排序,web连接图反转,每台机器 的词矢量,web访问日志分析,反向索引构建,文档聚类, 机器学习,基于统计的机器翻译...”值得注意的是, MapReduce实现以后,它被用来重新生成Google的整个索 引。
2020/8/11
杭州斯凯网络科技有限公司
15
MapReduce的分布和可靠性
MapReduce通过把对数据集的大规模操作分发 给网络上的每个节点实现可靠性;每个节点会周 期性的把完成的工作和状态的更新报告回来。如 果一个节点保持沉默超过一个预设的时间间隔, 主节点(类同Google File System中的主服务器) 记录下这个节点状态为死亡,并把分配给这个节 点的数据发到别的节点。每个操作使用命名文件 的原子操作以确保不会发生并行线程间的冲突; 当文件被改名的时候,系统可能会把他们复制到 任务名以外的另一个名字上去。(避免副作用)。
2020/8/11
杭州斯凯网络科技有限公司
21
Oracle RAC和GreenPlum成本比较
Oracle RAC 包括软件成本,维护成本,硬件成 本,由于Oracle采用shared everything方式,因 而除了Oracle RAC本身的软件成本,维护成本外, 还有很大一块存储成本。
而GreenPlum是采用shared nothing方式,可以 采用廉价的硬盘存储方式。软件成本相对于Oracle 来说也便宜很多。
因为数据仓库的主要的工作量和维护成本是ETL, 而斯凯目前大部分数据都放在Oracle数据库中,因 而采用Oracle RAC 方案ETL时间会大大缩小。
2020/8/11
杭州斯凯网络科技有限公司
22
Oracle RAC和GreenPlum风险评估
Oracle RAC 方案是基于成熟的架构,被业界采 用最广泛的方案,因而风险相对小很多
2020/8/11
杭州斯凯网络科技有限公司
4
数据仓库的软件架构
数据仓库的软件架构选择更加丰富 数据库软件 ETL软件 展现软件 数据挖掘软件 每一种类型里面都具备非常多的选择。
2020/8/11
杭州斯凯网络科技有限公司
5
ETL约占整个项目的70%
ETL,Extraction-Transformation-Loading的缩写, 中文名称为数据抽取、转换和加载。
2020/8/11
杭州斯凯网络科技有限公司
6
数据仓库的架构设计一些考虑因素
1.成本。成本永远是企业关心的一个核心问题,特别在如 今经济寒冬,更是如此。
2.效率。能否高效的处理海量的数据是一个基础要素,搞 数据仓库的都知道,数据量永远是一个经常被拿出来讨论 的话题。
3.线性扩展。能支持线性扩展的系统在计划支撑多年的系 统中特别重要,可以非常方便的做出年度预算。
事实上,每个元素都是被独立操作的,而原始列 表没有被更改,因为这里创建了一个新的列表来保存新的 答案。这就是说,Map操作是可以高度并行的,这对高性 能要求的应用以及并行计算领域的需求非常有用。
2020/8/11
杭州斯凯网络科技有限公司
14
MapReduce 化简概念
而化简操作指的是对一个列表的元素进行适 当的合并(继续看前面的例子,如果有人想知道 班级的平均分该怎么做?他可以定义一个化简函 数,通过让列表中的元素跟自己的相邻的元素相 加的方式把列表减半,如此递归运算直到列表只 剩下一个元素,然后用这个元素除以人数,就得 到了平均分。)。虽然他不如映射函数那么并行, 但是因为化简总是有一个简单的答案,大规模的 运算相对独立,所以化简函数在高度并行环境下 也很有用。
封闭式硬件架构代表厂商有teradata,其硬 件是专属的,必须使用特殊的硬件才能运行。 开放式硬件架构的代表有oracle,可以运行 在各种硬件上,不过开放和封闭之间的界限 也逐步的融合。
2020/8/11
杭州斯凯网络科技有限公司
3
数据仓库的目前的现状
Greenplum在这两方面取长补短,所提供 的该公司的旗舰产品——Greenplum数据引 擎就是特别为支持新型数据仓库和大规模分 析处理而设计开发的,可以同时支持SQL和 MapReduce技术。Greenplum数据引擎对有PB 量级数据的大型公司提供数据处理能力。基 于Greenplum数据引擎的解决方案的核心优 势在于可将原来长达数小时甚至数天的运算 时间缩短为几分钟。

历史上许多忠臣义士,在国家有难时 ,他们 的节操 就显现 出来, 一个个 名垂史 册。。 上午11 时21分4 9秒上 午11时2 1分11: 21:4920 .8.11

学而不化,非学也。—宋·杨万里。20. 8.1120. 8.1111: 2111:2 1:4911: 21:49Aug-20

MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。
像外行一样思考,像专家一样实践
2020/8/11
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24

如果放弃太早,你永远都不知道自己 会错过 什么。 。20.8.1 120.8.1 1Tuesday, August 11, 2020

今天应做的事没有做,明天再早也是 耽误了 。。11: 21:4911 :21:491 1:218/ 11/2020 11:21:49 AM
数据仓库
顾安宁
2020/8/11
杭州斯凯网络科技有限公司
1
内容
数据仓库一些特点 数据仓库的架构 Oracle RAC架构 GreenPlum架构 MapReduce的概念 架构比较 风险评估
2020/8/11
杭州斯凯网络科技有限公司
2
数据仓库的目前的现状
软件架构
硬件架构 硬软架构又可以分成封闭式和开放式。
相关文档
最新文档