数据仓库建模方法论PPT课件( 48页)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

易失性
聚集数据集市:当业务过程发生变化,为了消除 数据仓库模型是与过程无关的,它摒弃了由于处理过程影响而带来的变化
或减少对事实表重建,需要增加新的维或改变维。 数据仓库模型的设计依赖于企业的业务规则,而不依赖与在其上将运行什么查询。
原子数据集市:由于事实表可能包含几亿甚至更 如果一个已经建好的数据集市需要改变或加强,可以根据存储在数据仓库中的细节数据合
数据仓库的特点
企业信息工厂
数据仓库总线
企业总线
总线架构矩阵
多维体系结构与企业信息工厂体系结构比较
方面 范围
角度
多维体系结构
优先考虑业务单位范围
关心业务部门的需求 多维建模师以企业视角,建立一致性维度。
企业信息工厂体系结构
优先考虑企业总体范围
从企业角度解决供应源数据的问题,但并不是整个企业的数据必须在项目第一个阶段都处 理。相反而是选择企业所有数据的一个子集。
多的数据,重建将会带来严重后果
理且快速地进行重建
灵活性
多维设计是很多业务过程聚集在一起的结果。当 处理请求发生变化时,多维数据库的设计未必能 够适度地变化。
数据仓库模型存放数据粒度级别为原子级别,原子级别可以任意组合。故可以支持将来未 知需求。
复杂性
数据集市模型易于业务人员理解。可以很容易构 建数据集市,然而,当一个一个地建立数据集市 时,由于数据的企业视图的复杂性,对于这种结 构,完成更新时相当复杂的。
数据仓库建模方法论
主题
数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程
数据仓库领域的两位大师
Ralph Kimball
数据仓库方面的知名学者
理论:Mutildimensional Architecture(MD)
主要著作:《数据仓库工具箱-维度建模的完全指南》、 《数据仓库生命周期工具箱- 设计、开发和部署数据仓库的专家方
On-Line Transaction Processing
也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算 中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处 理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务 处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。 OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
OLTP与OLAP
On-Line Analytical Processing
针对特定问题的联机数据访问和数据分析技术 满足对数据进行多角度、快速、一致、交互、深入观察 使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要 将数据从关系数据库中转载到多维数据库中方可访问。
数据流
实施方法采用自底向上的:如何快速的获取由用 户控制的业务部门专有的数据,并最小限度的考 虑整个企业的使用 快速需求收集和实现过程使得为整个环境提供一 致而可靠数据的任务变得复杂。
实施方法是自顶向下的:企业数据利用业务需求将数据从数据源推至需要这些数据的地方, 其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。 为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销,需要更多 的时间和代价。但后续项目则需要较少时间和代价,尤其对于使用现有的、健全的主题 域的业务单位更是如此。 实现对存储空间最小需求,非冗余方式防止了在多个位置存储数据。这种特性使更新或删 除异常最小化或者消除。
OLTP与OLAP
用户 功能 DB 设计
数据
存取 工作单位 用户数 DB 大小
OLTP
操作人员,低层管理人员 日常操作处理 面向应用 当前的, 最新的细节的, 二 维的 读/写数十条记录 简单的事务 上千个
100MB-GB
OLAP
决策人员,高级管理人员 分析决策 面向主题 历史的, 聚集的, 多维的集成的, 统一的 读上百万条记录 复杂的查询 上百个
Biblioteka Baidu
数据仓库中的细节数据是与处理过程无关的,因此数据仓库的数据模型使得数据不一致的 风险最小。
功能性
为多维处理提供了理想环境,切片和切块、上钻 和下钻等查询提供良好的性能
持续维护
支持数据挖掘、统计分析和即席查询
总体目标是防止由于环境的后续构建、调整和优化而产生的高昂的代价。一个良好的数据 仓库模型将为企业提供长久的服务,将提供如下回报: 整个环境端到端一致性和集成性 易于建立新的数据集市 加强现有数据集市 数据仓库和有关数据集市的维护和可持续发展
法》
http://www.kimballgroup.com
Bill Inmon
数据仓库之父,数据仓库概念的创始人 理论: Corporate Information Factory(CIF) 主要著作:《数据仓库》、《企业信息工厂》 http://inmoncif.com
企业数据仓库EDW
企业数据仓库定义:
详细交易及相关业务数据的集合������ 包含必要的内部与外部信息������ 来自于多个数据源/业务操作系统������ 保存一定的时间周期������ 按照企业内业务规则所决定的模型来存储
企业数据仓库作用: 基于数据/信息来回答相关的业务 问题和提供决策支持,并确保:一 致、集成的数据存储������ 任意的数据粒度������ 在整个企业的业务范围������ 保持企业内一致的信息视图
企业内一致的信息视图(Single Version of the Truth) >集成的企业信息(Integrated corporate information) >不针对特定应用(Application neutral) >无冗余(Non redundant) >用于报表和决策支持(Reporting and decision making) 最详细的数据和信息(Detailed Data) 任何时候,针对任意数据,提出任意业务问题(Ask any question, any data, any time)
相关文档
最新文档