数据仓库技术
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•
讲真话的最大好处就是:不必记得自 己讲过 什么。 。2020 年8月上 午11时 21分20 .8.1111 :21Aug ust 11, 2020
•
我生平最高兴的,就是我答应帮助人 家去做 的事, 自己不 仅是完 成了, 而且比 他们要 求的做 得更好 ,当完 成这些 信诺时 ,那种 兴奋的 感觉是 难以形 容的…… 。2020 年8月1 1日星 期二11 时21分4 9秒11: 21:4911 August 2020
•
对于攀登者来说,失掉往昔的足迹并 不可惜 ,迷失 了继续 前时的 方向却 很危险 。。202 0年8月 11日上 午11时 21分20 .8.1120 .8.11
•
江无回头浪,人无再少年。年华若虚 度,老 来恨不 浅。时 光容易 逝,岁 月莫消 遣。碌 碌而无 为,生 命不值 钱。。2 020年8 月11日 星期二 上午11 时21分 49秒11 :21:492 0.8.11
MapReduce会生成大量的临时文件,为了提高效率, 它利用Google文件系统来管理和访问这些文件。
2020/8/11
杭州斯凯网络科技有限公司
18
数据仓库的架构比较
2020/8/11
杭州斯凯网络科技有限公司
19
硬件物理架构比较
数据仓库的物理架构,包含硬件物理架构和软件物 理架构。硬件物理架构包含集中式和分布式两种,在企业 里面都有运用。
8
数据仓库的架构类型
2020/8/11
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2020/8/11
百度文库
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2020/8/11
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2020/8/11
杭州斯凯网络科技有限公司
12
4.协同工作。解决多人协同开发问题。
2020/8/11
杭州斯凯网络科技有限公司
7
数据仓库的架构设计一些考虑因素
5.调度。能否很方便的一目了然的看到整体调度,站在一 个非常高的高度来管理各种数据流。 6.兼容性。能否兼容各种异构数据。 7.准确的监控系统。 8.高效的开发框架。
2020/8/11
杭州斯凯网络科技有限公司
当前的软件实现是指定一个Map(映射)函数,用来 把一组键值对映射成一组新的键值对,指定并发的Reduce (化简)函数,用来保证所有映射的键值对中的每一个共 享相同的键组。
2020/8/11
杭州斯凯网络科技有限公司
13
MapReduce 映射概念
简单说来,一个映射函数就是对一些独立元素组成的 概念上的列表(例如,一个测试成绩的列表)的每一个元 素进行指定的操作(比如前面的例子里,有人发现所有学 生的成绩都被高估了一分,他可以定义一个“减一”的映 射函数,用来修正这个错误。)。
2020/8/11
杭州斯凯网络科技有限公司
16
MapReduce的分布和可靠性
化简操作工作方式很类似,但是由于化简操作 在并行能力较差,主节点会尽量把化简操作调度 在一个节点上,或者离需要操作的数据尽可能近 的节点上了;这个特性可以满足Google的需求, 因为他们有足够的带宽,他们的内部网络没有那 么多的机器。
集中式硬件物理架构偏向于使用非常power的小型机 或者大型机,非常高端的海量存储,管理简单,在不计投 入的情况下性能也能满足企业需求。
分布式硬件物理架构目前非常流行,特征是采用价 格低廉的中低端机器组成计算集群,不同的技术驱动下, 在shared nothing的架构下可以采用本机的硬盘, 在 shared everything的架构下偏向使用集中存储,分布式 集群在网络上的要求比较高,扩展性比较好,配合好的软 件可以达到线性扩展的要求。
ETL负责将分布的、异构数据源中的数据如关系数据、 平面数据文件等抽取到临时中间层后进行清洗、转换、集 成,最后加载到数据仓库或数据集市中,成为联机分析处 理、数据挖掘的基础。
如果说数据仓库的模型设计是一座大厦的设计蓝图, 数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个 项目中最难部分是用户需求分析和模型设计,而ETL规则 设计和实施则是工作量最大的,约占整个项目的60%~80%,
你既然认准一条道路,何必去打听要 走多久 。。202 0年8月 11日星 期二11 时21分 49秒Tuesday, August 11, 2020
•
商业竞争的胜负最终决定在经营者本 身的修 养上。 。20.8.1 12020 年8月11 日星期 二11时 21分49 秒20.8. 11
谢谢各位!
2020/8/11
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。
•
没有等出来的辉煌;只有走出来的美 丽。。2 0.8.111 1:21:49 11:21A ug-201 1-Aug-2 0
•
生活不应该过于拘泥,过于刻板,只 要有可 能就要 任其自 由发挥 。11:21: 4911:2 1:4911: 21Tues day, August 11, 2020
•
所有目标都是黑暗的,只有行动才与 光明相 伴!。2 0.8.112 0.8.111 1:21:49 11:21:4 9Augus t 11, 2020
而GreenPlum方案是目前最近的解决方案,国外 VideoEgg和Skype等公司采用。09年刚刚进入中国, 目前国内还没有公司正式采用,淘宝,阿里巴巴 B2B公司在试用。因而遇到的风险相对会大很多
2020/8/11
杭州斯凯网络科技有限公司
23
提问与讨论
しろうと
かんが
くろうと
じっこう
素人のように考え、玄人として実行する
2020/8/11
杭州斯凯网络科技有限公司
17
MapReduce的用途
在Google,MapReduce用在非常广泛的应用程序中, 包括“分布grep,分布排序,web连接图反转,每台机器 的词矢量,web访问日志分析,反向索引构建,文档聚类, 机器学习,基于统计的机器翻译...”值得注意的是, MapReduce实现以后,它被用来重新生成Google的整个索 引。
2020/8/11
杭州斯凯网络科技有限公司
15
MapReduce的分布和可靠性
MapReduce通过把对数据集的大规模操作分发 给网络上的每个节点实现可靠性;每个节点会周 期性的把完成的工作和状态的更新报告回来。如 果一个节点保持沉默超过一个预设的时间间隔, 主节点(类同Google File System中的主服务器) 记录下这个节点状态为死亡,并把分配给这个节 点的数据发到别的节点。每个操作使用命名文件 的原子操作以确保不会发生并行线程间的冲突; 当文件被改名的时候,系统可能会把他们复制到 任务名以外的另一个名字上去。(避免副作用)。
2020/8/11
杭州斯凯网络科技有限公司
21
Oracle RAC和GreenPlum成本比较
Oracle RAC 包括软件成本,维护成本,硬件成 本,由于Oracle采用shared everything方式,因 而除了Oracle RAC本身的软件成本,维护成本外, 还有很大一块存储成本。
而GreenPlum是采用shared nothing方式,可以 采用廉价的硬盘存储方式。软件成本相对于Oracle 来说也便宜很多。
因为数据仓库的主要的工作量和维护成本是ETL, 而斯凯目前大部分数据都放在Oracle数据库中,因 而采用Oracle RAC 方案ETL时间会大大缩小。
2020/8/11
杭州斯凯网络科技有限公司
22
Oracle RAC和GreenPlum风险评估
Oracle RAC 方案是基于成熟的架构,被业界采 用最广泛的方案,因而风险相对小很多
2020/8/11
杭州斯凯网络科技有限公司
4
数据仓库的软件架构
数据仓库的软件架构选择更加丰富 数据库软件 ETL软件 展现软件 数据挖掘软件 每一种类型里面都具备非常多的选择。
2020/8/11
杭州斯凯网络科技有限公司
5
ETL约占整个项目的70%
ETL,Extraction-Transformation-Loading的缩写, 中文名称为数据抽取、转换和加载。
2020/8/11
杭州斯凯网络科技有限公司
6
数据仓库的架构设计一些考虑因素
1.成本。成本永远是企业关心的一个核心问题,特别在如 今经济寒冬,更是如此。
2.效率。能否高效的处理海量的数据是一个基础要素,搞 数据仓库的都知道,数据量永远是一个经常被拿出来讨论 的话题。
3.线性扩展。能支持线性扩展的系统在计划支撑多年的系 统中特别重要,可以非常方便的做出年度预算。
事实上,每个元素都是被独立操作的,而原始列 表没有被更改,因为这里创建了一个新的列表来保存新的 答案。这就是说,Map操作是可以高度并行的,这对高性 能要求的应用以及并行计算领域的需求非常有用。
2020/8/11
杭州斯凯网络科技有限公司
14
MapReduce 化简概念
而化简操作指的是对一个列表的元素进行适 当的合并(继续看前面的例子,如果有人想知道 班级的平均分该怎么做?他可以定义一个化简函 数,通过让列表中的元素跟自己的相邻的元素相 加的方式把列表减半,如此递归运算直到列表只 剩下一个元素,然后用这个元素除以人数,就得 到了平均分。)。虽然他不如映射函数那么并行, 但是因为化简总是有一个简单的答案,大规模的 运算相对独立,所以化简函数在高度并行环境下 也很有用。
封闭式硬件架构代表厂商有teradata,其硬 件是专属的,必须使用特殊的硬件才能运行。 开放式硬件架构的代表有oracle,可以运行 在各种硬件上,不过开放和封闭之间的界限 也逐步的融合。
2020/8/11
杭州斯凯网络科技有限公司
3
数据仓库的目前的现状
Greenplum在这两方面取长补短,所提供 的该公司的旗舰产品——Greenplum数据引 擎就是特别为支持新型数据仓库和大规模分 析处理而设计开发的,可以同时支持SQL和 MapReduce技术。Greenplum数据引擎对有PB 量级数据的大型公司提供数据处理能力。基 于Greenplum数据引擎的解决方案的核心优 势在于可将原来长达数小时甚至数天的运算 时间缩短为几分钟。
•
历史上许多忠臣义士,在国家有难时 ,他们 的节操 就显现 出来, 一个个 名垂史 册。。 上午11 时21分4 9秒上 午11时2 1分11: 21:4920 .8.11
•
学而不化,非学也。—宋·杨万里。20. 8.1120. 8.1111: 2111:2 1:4911: 21:49Aug-20
•
MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。
像外行一样思考,像专家一样实践
2020/8/11
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24
•
如果放弃太早,你永远都不知道自己 会错过 什么。 。20.8.1 120.8.1 1Tuesday, August 11, 2020
•
今天应做的事没有做,明天再早也是 耽误了 。。11: 21:4911 :21:491 1:218/ 11/2020 11:21:49 AM
数据仓库
顾安宁
2020/8/11
杭州斯凯网络科技有限公司
1
内容
数据仓库一些特点 数据仓库的架构 Oracle RAC架构 GreenPlum架构 MapReduce的概念 架构比较 风险评估
2020/8/11
杭州斯凯网络科技有限公司
2
数据仓库的目前的现状
软件架构
硬件架构 硬软架构又可以分成封闭式和开放式。