数据仓库逻辑模型介绍

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 粒度是指数据仓库的数据单位中保存数据的细化或综合程度 的级别(详细程度 )。细化程度越高,粒度级就越小;相反, 细化程度越低,粒度级就越大。
? 取决于:数据量大小 、存储设备的容量、查询分析的需要 ? 一定的时间窗内存放细的粒度数据,超过一定的时期,只提
供粗粒度的汇总数据,从而在性能与需求上达到一种平衡。
数据集市
数据来源 OLTP 系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
数据粒度 最细的粒度
较粗的粒度
数据结构 规范化结构(第 3范式)星型模式、雪花模式、或 两者混合
历史数据 大量的历史数据
适度的历史数据
优化
处理海量数据、数据 便于访问和分析、快速查
探索

8
一、概念 -3
15
二、数据仓库实施方法论 -2
? (2)信息调研
? 源系统调研 ? 数据源分析 ? 数据质量分析 ? 数据缺口分析 ? 数据更新周期及更新方式分析 ? 用户需求分析
内部培训 源系统介绍 数据字典整理 样本数据分析 表级和字段级分析
16
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 基于概念数据模型 (CDM) ? 由一系列表和实体详细描述组成 ? 通用的业务语言 ? 便于业务与业务之间的功能理解 ? 集成当前和未来数据的蓝图 ? 独立于技术 ? 为物理数据库设计作准备 ? 是IT人员和业务人员沟通的工具
6
一、概念 -2
? ODS与数据仓库
? 共同点:面向主题的和集成的,需要进行转换、加工处理 ? 区别:主要体现数据的可变性和当前性上
ODS 实时的、可动态刷新的 当前运行系统的数据
明细数据
数据仓库 非实时的、静态的
除了保存当前数据,还需 要保存大量的历史数据 保存明细和汇总数据
7
一、概念 -2
数据仓库
13
一、概念 -7
? (7)OLAP 及其相关
? OLAP 、维度、事实、度量值 ? 切片、切块、上钻、下钻、旋转 ? 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
? (1)实施流程
?
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
来自百度文库
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
数据仓库逻辑模型介绍
数据仓库逻辑模型介绍
Tony 2010-3-15
内容
? 相关概念介绍 ? 数据仓库实施方法论 ? LDM介绍 ? 学习经验分享
2
一、概念 -1
? (1)为什么要建设数据仓库?
? 蜘蛛网问题
? 数据缺乏可信性 ? 数据处理效率低下 ? 难以将数据转化为信息
3
图1 蜘蛛网现象 4
11
一、概念 -5 ? (5)元数据
? 业务元数据从业务的角度描述了数据仓库中的数据。它提供 了介于使用者和实际系统之间的语义层,使得不懂计算机技 术的业务人员也能够“读懂”数据仓库中的数据。使用者的 业务术语所表达的数据模型、对象名和属性名;访问数据的 原则和数据的来源;系统所提供的分析方法以及公式和报表 的信息。
一、概念 -1
? (1)为什么要建设数据仓库?
? 统一数据源 ? 统一数据标准
5
一、概念 -2
? (2) ODS、数据仓库、数据集市
? 操作数据存储 (Operational Data Store) 是一个面向主题的、 集成的、可变的、当前的细节数据集合,用于支持企业对于 即时性的、操作性的、集成的全体信息的需求。常常被作为 数据仓库的过渡,也是数据仓库项目的可选项之一。
17
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 了解业务流程 ? 分析源数据 ? 建立实体模型 ? 建立实体间依赖关系 ? 填写并完善实体属性
18
? 元数据为访问数据仓库提供了一个信息目录( information directory ),这个目录全面描述了数据仓库中都有什么数据、 这些数据怎么得到的、和怎么访问这些数据。它是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数 据,用户通过他来了解和访问数据。
12
一、概念 -6
? (6)数据粒度
? (3)ETL
? ETL 是数据抽取( Extract )、转换( Transform )、清洗 (Cleansing )、装载( Load )的过程。
? 是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过数据清洗 ,最终按照预先定义好的数据仓库模型,将 数据加载到数据仓库中去。
? ETL 主要解决各源数据的异构性和低质量 (标准化、清除噪声
数据 ) 、计算和汇总指标数据。
9
一、概念 -4
? (4)数据加载策略
? 更新(Upsert 、delete/insert) ? 拉链(时间拉链 /自拉链, 历史) ? 追加(直接insert ,防止重复加载先 delete 当天) ? 当前表、历史表、流水表
10
一、概念 -5 ? (5)元数据
? 元数据:是描述数据仓库内数据的结构和建立方法的数据。 可将其按用途的不同分为两类,技术元数据和商业元数据。
? 技术元数据是数据仓库的设计和管理人员用于开发和日常管 理数据仓库时用的数据。包括:数据源信息;数据转换的描 述;数据仓库内对象和数据结构的定义;数据清理和数据更 新时用的规则;源数据到目标的数据映射;用户访问权限, 数据备份历史记录,数据导入历史记录,信息发布历史记录 等。
? 数据仓库是面向主题的、集成的、稳定的 (不可更新 )、反映 历史变化(不同时间)的数据集合,用以支持经营管理中的 决策制定过程。 (Inmon,1991)
? 数据集市也可叫做“小数据仓库”。如果说数据仓库是建立 在企业级的数据模型之上的话。那么数据集市就是企业级数 据仓库的一个子集,他主要面向部门级业务,并且只面向某 个特定的主题。数据集市可以在一定程度上缓解访问数据仓 库的瓶颈。
应用 概要 开发
应用 详细 设计
应用 模型
应用 开发
开发





逻辑 物理 系统

信息调研(ID)
数据 模型
数据 体系 ETL 模型 结构 开发
设计 设计 设计

元 数 据 管

统 软 件 硬 件 设 备 安
系 统 管 理 与 维

系 统 测 试 与 验


项目 结束 回顾
项目管理 (Project Management)
相关文档
最新文档