数据仓库逻辑模型介绍
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
? 粒度是指数据仓库的数据单位中保存数据的细化或综合程度 的级别(详细程度 )。细化程度越高,粒度级就越小;相反, 细化程度越低,粒度级就越大。
? 取决于:数据量大小 、存储设备的容量、查询分析的需要 ? 一定的时间窗内存放细的粒度数据,超过一定的时期,只提
供粗粒度的汇总数据,从而在性能与需求上达到一种平衡。
数据集市
数据来源 OLTP 系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
数据粒度 最细的粒度
较粗的粒度
数据结构 规范化结构(第 3范式)星型模式、雪花模式、或 两者混合
历史数据 大量的历史数据
适度的历史数据
优化
处理海量数据、数据 便于访问和分析、快速查
探索
询
8
一、概念 -3
15
二、数据仓库实施方法论 -2
? (2)信息调研
? 源系统调研 ? 数据源分析 ? 数据质量分析 ? 数据缺口分析 ? 数据更新周期及更新方式分析 ? 用户需求分析
内部培训 源系统介绍 数据字典整理 样本数据分析 表级和字段级分析
16
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 基于概念数据模型 (CDM) ? 由一系列表和实体详细描述组成 ? 通用的业务语言 ? 便于业务与业务之间的功能理解 ? 集成当前和未来数据的蓝图 ? 独立于技术 ? 为物理数据库设计作准备 ? 是IT人员和业务人员沟通的工具
6
一、概念 -2
? ODS与数据仓库
? 共同点:面向主题的和集成的,需要进行转换、加工处理 ? 区别:主要体现数据的可变性和当前性上
ODS 实时的、可动态刷新的 当前运行系统的数据
明细数据
数据仓库 非实时的、静态的
除了保存当前数据,还需 要保存大量的历史数据 保存明细和汇总数据
7
一、概念 -2
数据仓库
13
一、概念 -7
? (7)OLAP 及其相关
? OLAP 、维度、事实、度量值 ? 切片、切块、上钻、下钻、旋转 ? 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
? (1)实施流程
?
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
来自百度文库
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
数据仓库逻辑模型介绍
数据仓库逻辑模型介绍
Tony 2010-3-15
内容
? 相关概念介绍 ? 数据仓库实施方法论 ? LDM介绍 ? 学习经验分享
2
一、概念 -1
? (1)为什么要建设数据仓库?
? 蜘蛛网问题
? 数据缺乏可信性 ? 数据处理效率低下 ? 难以将数据转化为信息
3
图1 蜘蛛网现象 4
11
一、概念 -5 ? (5)元数据
? 业务元数据从业务的角度描述了数据仓库中的数据。它提供 了介于使用者和实际系统之间的语义层,使得不懂计算机技 术的业务人员也能够“读懂”数据仓库中的数据。使用者的 业务术语所表达的数据模型、对象名和属性名;访问数据的 原则和数据的来源;系统所提供的分析方法以及公式和报表 的信息。
一、概念 -1
? (1)为什么要建设数据仓库?
? 统一数据源 ? 统一数据标准
5
一、概念 -2
? (2) ODS、数据仓库、数据集市
? 操作数据存储 (Operational Data Store) 是一个面向主题的、 集成的、可变的、当前的细节数据集合,用于支持企业对于 即时性的、操作性的、集成的全体信息的需求。常常被作为 数据仓库的过渡,也是数据仓库项目的可选项之一。
17
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 了解业务流程 ? 分析源数据 ? 建立实体模型 ? 建立实体间依赖关系 ? 填写并完善实体属性
18
? 元数据为访问数据仓库提供了一个信息目录( information directory ),这个目录全面描述了数据仓库中都有什么数据、 这些数据怎么得到的、和怎么访问这些数据。它是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数 据,用户通过他来了解和访问数据。
12
一、概念 -6
? (6)数据粒度
? (3)ETL
? ETL 是数据抽取( Extract )、转换( Transform )、清洗 (Cleansing )、装载( Load )的过程。
? 是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过数据清洗 ,最终按照预先定义好的数据仓库模型,将 数据加载到数据仓库中去。
? ETL 主要解决各源数据的异构性和低质量 (标准化、清除噪声
数据 ) 、计算和汇总指标数据。
9
一、概念 -4
? (4)数据加载策略
? 更新(Upsert 、delete/insert) ? 拉链(时间拉链 /自拉链, 历史) ? 追加(直接insert ,防止重复加载先 delete 当天) ? 当前表、历史表、流水表
10
一、概念 -5 ? (5)元数据
? 元数据:是描述数据仓库内数据的结构和建立方法的数据。 可将其按用途的不同分为两类,技术元数据和商业元数据。
? 技术元数据是数据仓库的设计和管理人员用于开发和日常管 理数据仓库时用的数据。包括:数据源信息;数据转换的描 述;数据仓库内对象和数据结构的定义;数据清理和数据更 新时用的规则;源数据到目标的数据映射;用户访问权限, 数据备份历史记录,数据导入历史记录,信息发布历史记录 等。
? 数据仓库是面向主题的、集成的、稳定的 (不可更新 )、反映 历史变化(不同时间)的数据集合,用以支持经营管理中的 决策制定过程。 (Inmon,1991)
? 数据集市也可叫做“小数据仓库”。如果说数据仓库是建立 在企业级的数据模型之上的话。那么数据集市就是企业级数 据仓库的一个子集,他主要面向部门级业务,并且只面向某 个特定的主题。数据集市可以在一定程度上缓解访问数据仓 库的瓶颈。
应用 概要 开发
应用 详细 设计
应用 模型
应用 开发
开发
数
据
挖
掘
服
逻辑 物理 系统
务
信息调研(ID)
数据 模型
数据 体系 ETL 模型 结构 开发
设计 设计 设计
系
元 数 据 管
理
统 软 件 硬 件 设 备 安
系 统 管 理 与 维
护
系 统 测 试 与 验
收
装
项目 结束 回顾
项目管理 (Project Management)
? 取决于:数据量大小 、存储设备的容量、查询分析的需要 ? 一定的时间窗内存放细的粒度数据,超过一定的时期,只提
供粗粒度的汇总数据,从而在性能与需求上达到一种平衡。
数据集市
数据来源 OLTP 系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
数据粒度 最细的粒度
较粗的粒度
数据结构 规范化结构(第 3范式)星型模式、雪花模式、或 两者混合
历史数据 大量的历史数据
适度的历史数据
优化
处理海量数据、数据 便于访问和分析、快速查
探索
询
8
一、概念 -3
15
二、数据仓库实施方法论 -2
? (2)信息调研
? 源系统调研 ? 数据源分析 ? 数据质量分析 ? 数据缺口分析 ? 数据更新周期及更新方式分析 ? 用户需求分析
内部培训 源系统介绍 数据字典整理 样本数据分析 表级和字段级分析
16
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 基于概念数据模型 (CDM) ? 由一系列表和实体详细描述组成 ? 通用的业务语言 ? 便于业务与业务之间的功能理解 ? 集成当前和未来数据的蓝图 ? 独立于技术 ? 为物理数据库设计作准备 ? 是IT人员和业务人员沟通的工具
6
一、概念 -2
? ODS与数据仓库
? 共同点:面向主题的和集成的,需要进行转换、加工处理 ? 区别:主要体现数据的可变性和当前性上
ODS 实时的、可动态刷新的 当前运行系统的数据
明细数据
数据仓库 非实时的、静态的
除了保存当前数据,还需 要保存大量的历史数据 保存明细和汇总数据
7
一、概念 -2
数据仓库
13
一、概念 -7
? (7)OLAP 及其相关
? OLAP 、维度、事实、度量值 ? 切片、切块、上钻、下钻、旋转 ? 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
? (1)实施流程
?
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
来自百度文库
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
数据仓库逻辑模型介绍
数据仓库逻辑模型介绍
Tony 2010-3-15
内容
? 相关概念介绍 ? 数据仓库实施方法论 ? LDM介绍 ? 学习经验分享
2
一、概念 -1
? (1)为什么要建设数据仓库?
? 蜘蛛网问题
? 数据缺乏可信性 ? 数据处理效率低下 ? 难以将数据转化为信息
3
图1 蜘蛛网现象 4
11
一、概念 -5 ? (5)元数据
? 业务元数据从业务的角度描述了数据仓库中的数据。它提供 了介于使用者和实际系统之间的语义层,使得不懂计算机技 术的业务人员也能够“读懂”数据仓库中的数据。使用者的 业务术语所表达的数据模型、对象名和属性名;访问数据的 原则和数据的来源;系统所提供的分析方法以及公式和报表 的信息。
一、概念 -1
? (1)为什么要建设数据仓库?
? 统一数据源 ? 统一数据标准
5
一、概念 -2
? (2) ODS、数据仓库、数据集市
? 操作数据存储 (Operational Data Store) 是一个面向主题的、 集成的、可变的、当前的细节数据集合,用于支持企业对于 即时性的、操作性的、集成的全体信息的需求。常常被作为 数据仓库的过渡,也是数据仓库项目的可选项之一。
17
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 了解业务流程 ? 分析源数据 ? 建立实体模型 ? 建立实体间依赖关系 ? 填写并完善实体属性
18
? 元数据为访问数据仓库提供了一个信息目录( information directory ),这个目录全面描述了数据仓库中都有什么数据、 这些数据怎么得到的、和怎么访问这些数据。它是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数 据,用户通过他来了解和访问数据。
12
一、概念 -6
? (6)数据粒度
? (3)ETL
? ETL 是数据抽取( Extract )、转换( Transform )、清洗 (Cleansing )、装载( Load )的过程。
? 是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过数据清洗 ,最终按照预先定义好的数据仓库模型,将 数据加载到数据仓库中去。
? ETL 主要解决各源数据的异构性和低质量 (标准化、清除噪声
数据 ) 、计算和汇总指标数据。
9
一、概念 -4
? (4)数据加载策略
? 更新(Upsert 、delete/insert) ? 拉链(时间拉链 /自拉链, 历史) ? 追加(直接insert ,防止重复加载先 delete 当天) ? 当前表、历史表、流水表
10
一、概念 -5 ? (5)元数据
? 元数据:是描述数据仓库内数据的结构和建立方法的数据。 可将其按用途的不同分为两类,技术元数据和商业元数据。
? 技术元数据是数据仓库的设计和管理人员用于开发和日常管 理数据仓库时用的数据。包括:数据源信息;数据转换的描 述;数据仓库内对象和数据结构的定义;数据清理和数据更 新时用的规则;源数据到目标的数据映射;用户访问权限, 数据备份历史记录,数据导入历史记录,信息发布历史记录 等。
? 数据仓库是面向主题的、集成的、稳定的 (不可更新 )、反映 历史变化(不同时间)的数据集合,用以支持经营管理中的 决策制定过程。 (Inmon,1991)
? 数据集市也可叫做“小数据仓库”。如果说数据仓库是建立 在企业级的数据模型之上的话。那么数据集市就是企业级数 据仓库的一个子集,他主要面向部门级业务,并且只面向某 个特定的主题。数据集市可以在一定程度上缓解访问数据仓 库的瓶颈。
应用 概要 开发
应用 详细 设计
应用 模型
应用 开发
开发
数
据
挖
掘
服
逻辑 物理 系统
务
信息调研(ID)
数据 模型
数据 体系 ETL 模型 结构 开发
设计 设计 设计
系
元 数 据 管
理
统 软 件 硬 件 设 备 安
系 统 管 理 与 维
护
系 统 测 试 与 验
收
装
项目 结束 回顾
项目管理 (Project Management)