数据仓库模型建设规范10

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库模型建设规范

1.概述

数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求、分析、设计、测试等通常的软件生命周期之外,它还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的模型设计异常重要,这也是关系到数据仓库项目成败的关键。

物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基—层层建筑—封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免地要考虑数据库的物理设计。

数据仓库建模的设计目标是模型的稳定性、自适应性和可扩展性。为了做到这一点,必须坚持建模的相对独立性、业界先进性原则。

2.数聚模型架构

在数聚项目实施过程,我们一般将数据仓库系统的数据划分为如下图所示几个层次。

2.1.数据架构图

2.2.架构工作方法规范

2.3.准备层L0

2.3.1.主要数据结构

临时表:从数据源抽取,直接落地到临时表。临时表总是保存这次抽取的数据,不保留历史数据。也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果

是增量抽取的话,就是自从上次修改后的数据。

接口表:从临时表,经过清洗、转换到达接口表。接口表保存历史数据,也就是说,如果是全量抽取的话,就是源系统整个表的数据,如果是增量抽取的话。

接口表里面也是源系统整个表的数据。

转换表:为了进行清洗和转换建立的中间辅助表。

2.3.2.命名规范

临时表:L0_TMP_源系统_具体业务或 L0_TMP_业务主题_具体业务(对单一源)举例:L0_TMP_POS_SALESORDER

接口表:L0_DCI_业务主题_具体业务表

举例:L0_DCI_SALES_SALESORDER

转换表:L0_MAP_具体业务表

举例:L0_MAP_SALES

2.3.3.开发工作

●开发数据抽取接口,落地TMP区

●开发数据清洗转换程序,落地DCI区,多源系统进行合并

●开发数据装载程序,装载到L1层

2.4.原子层L1

2.4.1.主要数据结构

维度表:整个数据仓库一致的维度

代码表:维度属性,非维度代码等。

原子事实表:根据业务主题,形成原子事实表

汇总事实表:根据分析主题,业务主题形成合并或汇总的事实表。

2.4.2.命名规范

维度表:DW_DIM_维度。

举例:组织维 DW_DIM_ORG 日期维 DW_DIM_DATE.

代码表:DW_CODE_代码。

举例:性别 DW_CODE_GENDER

原子事实表:L1_DW_FACT_分析主题_具体分析

汇总事实表:L1_DM_FACT_分析主题_具体分析

2.4.

3.开发工作

●维护聚集。

●衍生计算,二次指标计算。

2.5.应用层L2

2.5.1.主要数据结构

宽表:根据需求,从L1层抽取成宽表,表现形式为固定报表,仪表盘等等。

立方体:根据分析主题,从L1生成OLAP立方体。

视图:根据需要,从L1,L0层产生L2层的视图。

前端应用,不仅仅可以利用L2层的数据结构,还可以利用L1层的数据结构。对于源系统,还可以利用L0层的DCI区数据,可以做详单和明细查询。

2.5.2.命名规范

宽表: L2_FACT_【应用主题】_【分析主题】_应用。

举例:L2_FACT_FIN_ZCFZB (财务->资产负债表)

立方体:根据分析主题,从L1生成OLAP立方体。

视图:根据需要,从L1,L0层产生L2层的视图。如明细单。

举例:L2_VIEW_原L1层表。

2.5.

3.开发工作

数据从L1层经过计算,汇总,根据前端分析需求,形成可以有效支撑前端应用查询的结构。

3.建模方法

要成功地建立一个数据仓库,必须有一个合理的数据模型。数据仓库建模在业务需求分析之后开始,是数据仓库构造的正式开始。在创建数据仓库的数据模型时应考虑: 满足不同层次、用户的需求;兼顾查询效率与数据粒度的需求;支持用户需求变化;避免业务运营系统性能影响;提供可扩展性。数据模型的可扩展性决定了数据仓库对新的需求的适应能力,建模既要考虑眼前的信息需求,也要考虑未来的需求。

目前两类主流的数据仓库模型分别是由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型。Inmon提出的企业级数据仓库模型采用第三范式(3NF),先建立企业级数据仓库,再在其上开发具体的应用。企业级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。这种模型的优点是信息全面、系统灵活。由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。

Kimball提出的多维模型降低了范式化,以分析主题为基本框架来组织数据。以维模型开发分析主题,这样能够快速实施,迅速获得投资回报,在取得实际效果的基础上,再逐渐增加应用主题,循序渐进,积累经验,逐步建成企业级数据仓库。这也可以说是采用总线型结构先建立数据集市,使所有的数据集市具有统一的维定义和一致的业务事实,这种方法融合了自下而上和自上而下两种设计方法的思想。这种模型的优点是查询速度快,做报表也快;缺点是由于存在大量的预处理,其建模过程相对来说就比较慢。

相关文档
最新文档