数据仓库建模方法论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 整合全面风险相关业务系统数据,实现全面风险的完整视图,为未来业务 拓展提供可扩展的架构。 • 通过集市数据模型处理,面向业务主题的模型设计,灵活易扩展。同时按 照业务应用需求驱动,进行多维度、多粒度的加工汇总。
支撑银行全面风险管理
• 实现全面风险数据的统一管理和全景视图,为实现全面、高效、及时的风险计 量、识别、报告提供数据基础,提升风险管理水平。
独立数据集市 Data Mart #1 Non-conformed Dimensions and Facts Data Mart #2
风险数据集市数据架构
风险计算引擎 监管报表 多维分析
绩效衡量和资本分配 合规性与披露 信用风险 防欺诈和反洗钱 操作风险 流动性风险 市场风险 风险引擎数据接口 活期存款 定期存款 储蓄国债 衍生品 储蓄国债
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP) MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)
ROLAP vs MOLAP
ROLAP MOLAP
沿用现有关系数据库技术 响应速度相对molap要慢
数据转载计算速度快
专用技术 性能好,响应速度快
数据仓库建模方法论
主题 数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程
数据仓库领域的两位大师
Ralph Kimball 数据仓库方面的知名学者 理论:Mutildimensional Architecture(MD)
主要著作:《数据仓库工具箱-维度建模的完全指南》、
数据转载速度慢 需要进行预计算,可能导致数据爆炸, 维数有限,无法支持维的动态变化 受操作系统平台文件大小限制,难以达 到tb级
存储空间耗费小,维数没有限制
借助rdbms对数据存储,无文件大小限 制
可以通过sql语句实现详细数据和概要数 缺乏数据模型和数据访问的标准 据的存储 不支持预计算的读写操作 无法完成维之间的运算 无法完成多行计算 支持高性能的决策支持计算 复杂的跨维计算 多用户读写操作 行级计算
应用集市层
面向应用 按需定制 多维建模 汇总数据
汇总层
数据挖掘模型
当事人 资产 协议
财务 事件 计量结果
产品
内部机构 市场数据
整合模型层
面向整合 主题设计 提供规范和共享
技术缓冲层
核心 系统 对公 信贷 票据 系统
…..
复杂 交易
储蓄 国债
市场 数据
ETL专用的纯技术层 完全与源系统结构一致
核心 系统
对公 信贷
票据 系统
…..
近源模型层
复杂 交易 储蓄 国债 市场 数据
基本依照源系统建模 尽量保持业务系统原貌
设计思路比较
ODS
目标
•短期的,细节的,同源的 数据存储; •直接提供基于源系统结构 的简单原貌访问; •为BI环境中适合的业务需 求提供支持 •简单处理,不考虑整合; •关注保留策略; •偏源系统模型; •根据支持应用情况可以保 留短期历史
数据仓库的特点
面向主题:操作型数据库的数据组织面向事物处理任务,各个业务系统之间各自分 离,而数据仓库中的数据是按照一定的主题域进行组织的。例如:当事人、协议、 机构、财务、事件、产品等主题。 集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过 系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内 的信息是关于整个企业的一致的全局信息。 相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数 据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、 刷新。
反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一 时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对 企业的发展历程和未来趋势做出定量分析和预测。
企业信息工厂
数据仓库总线
企业总线
总线架构矩阵
多维体系结构与企业信息工厂体系结构比较
方面 范围 角度 多维体系结构
•面向具体应用 •按需设计 •形式各异,依 具体应用不同;
•针对业务目标、挖掘算法 设计数据模型 • 一条记录表示一个观测 • 多条记录表示一个观测
重点
•理解源结构
•整体性 •一致性
• 业务理解 • 数据理解 • 数据准备 • 特定业务专题
用途
•业务原貌查询 •即时报表 •数据质量检查
应用层
报表模型
多维分析模型
星型模型 风险缓释 公共信息
零售信贷
公司信贷 票据信息 同业拆借
汇总层 理财产品
会计单元
交易流水
市场数据
计量结果 参与者 债券投资
数据挖掘 模型
风 险 计 量 结 果 返 回 O D S
Enterprise Date Warehouse ODS
风险数据集市建设目标
数据整合,数据标准
数据流
聚集数据集市:当业务过程发生变化,为了消除
易失性
数据仓库模型是与过程无关的,它摒弃了由于处理过程影响而带来的变化 或减少对事实表重建,需要增加新的维或改变维。 数据仓库模型的设计依赖于企业的业务规则,而不依赖与在其上将运行什么查询。 原子数据集市:由于事实表可能包含几亿甚至更 如果一个已经建好的数据集市需要改变或加强,可以根据存储在数据仓库中的细节数据合 多的数据,重建将会带来严重后果 理且快速地进行重建
OLTP与OLAP
OLTP
用户 操作人员,低层管理人员
OLAP
决策人员,高级管理人员
功能 DB 设计
数据 存取 工作单位 用户数 DB 大小
日常操作处理 面向应用 当前的, 最新的细节的, 二 维的 读/写数十条记录 简单的事务 上千个 100MB-GB
分析决策 面向主题 历史的, 聚集的, 多维的集成的, 统一的 读上百万条记录 复杂的查询 上百个 100GB-TB
优先考虑业务单位范围 关心业务部门的需求 多维建模师以企业视角,建立一致性维度。 实施方法采用自底向上的:如何快速的获取由用 户控制的业务部门专有的数据,并最小限度的考 虑整个企业的使用 快速需求收集和实现过程使得为整个环境提供一 致而可靠数据的任务变得复杂。
企业信息工厂体系结构
优先考虑企业总体范围 从企业角度解决供应源数据的问题,但并不是整个企业的数据必须在项目第一个阶段都处 理。相反而是选择企业所有数据的一个子集。 实施方法是自顶向下的:企业数据利用业务需求将数据从数据源推至需要这些数据的地方, 其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。 为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销,需要更多 的时间和代价。但后续项目则需要较少时间和代价,尤其对于使用现有的、健全的主题 域的业务单位更是如此。 实现对存储空间最小需求,非冗余方式防止了在多个位臵存储数据。这种特性使更新或删 除异常最小化或者消除。
灵活性 复杂性 功能性
多维设计是很多业务过程聚集在一起的结果。当 处理请求发生变化时,多维数据库的设计未必能 够适度地变化。 数据集市模型易于业务人员理解。可以很容易构 建数据集市,然而,当一个一个地建立数据集市 时,由于数据的企业视图的复杂性,对Байду номын сангаас这种结 构,完成更新时相当复杂的。 为多维处理提供了理想环境,切片和切块、上钻 和下钻等查询提供良好的性能
《数据仓库生命周期工具箱- 设计、开发和部署数据仓库的专家方 法》 http://www.kimballgroup.com
Bill Inmon
数据仓库之父,数据仓库概念的创始人 理论: Corporate Information Factory(CIF) 主要著作:《数据仓库》、《企业信息工厂》 http://inmoncif.com
On-Line Transaction Processing
也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算 中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处 理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务 处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。 OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
持续维护
易于建立新的数据集市
加强现有数据集市 数据仓库和有关数据集市的维护和可持续发展
OLTP与OLAP
On-Line Analytical Processing
针对特定问题的联机数据访问和数据分析技术 满足对数据进行多角度、快速、一致、交互、深入观察 使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要 将数据从关系数据库中转载到多维数据库中方可访问。
• 全局考虑,提炼需求,侧重业务规则理解
数据服务
• 存储细节的、整合的所有数据,为全面风险管理应用需求提供数据支撑,为实 现高效、及时的风险管理报表自动化提供数据基础
• 为风险计量提供数据准备服务,并对风险计量结果进行整理和存储
• 外系统供数服务,实现统一的风险数据来源。
主题 数据仓库概念 数据仓库模型 逻辑数据模型 数据模型标准化工艺流程
主题 数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程
数据架构形态
各数据架构比较
数据集市类型
源系统 ODS
EDW
从属数据集市 Data Mart #1 Data Mart Conformed Dimensions and Conformed Facts Data Mart #2
数据仓库模型存放数据粒度级别为原子级别,原子级别可以任意组合。故可以支持将来未 知需求。
数据仓库中的细节数据是与处理过程无关的,因此数据仓库的数据模型使得数据不一致的 风险最小。 支持数据挖掘、统计分析和即席查询 总体目标是防止由于环境的后续构建、调整和优化而产生的高昂的代价。一个良好的数据 仓库模型将为企业提供长久的服务,将提供如下回报: 整个环境端到端一致性和集成性
企业数据仓库EDW
企业数据仓库定义: 企业数据仓库作用: 基于数据/信息来回答相关的业务 详细交易及相关业务数据的集合������ 问题和提供决策支持,并确保:一 包含必要的内部与外部信息������ 致、集成的数据存储������ 来自于多个数据源/业务操作系统������ 任意的数据粒度������ 保存一定的时间周期������ 在整个企业的业务范围������ 按照企业内业务规则所决定的模型来存储 保持企业内一致的信息视图 企业内一致的信息视图(Single Version of the Truth) >集成的企业信息(Integrated corporate information) >不针对特定应用(Application neutral) >无冗余(Non redundant) >用于报表和决策支持(Reporting and decision making) 最详细的数据和信息(Detailed Data) 任何时候,针对任意数据,提出任意业务问题(Ask any question, any data, any time)
EDW
•长期的,细节的,整 合的数据存储; •为BI环境中适合的业 务需求提供支持
Data Mart
•服务特定应用
Data Mining
• 长期历史分析性指标汇总 • 为企业提供预测性、趋势 分析性需求提供支持
原则 形式
•面向全局,数据整合 •中性设计,灵活扩展 •提供规范和共享 •面向主题设计; •偏范式化; •长期保留历史 •主题定义 •框架设计 •整合策略 •实施方法 •灵活查询 •整合规则检查
为什么需要逻辑数据模型
为复杂的数据仓库系统实施提供了规范和 基础结构-蓝图
促进业务部门用户和IT分析人员之间的有 效沟通 明确业务需求 解决业务问题
形成对重要业务定义和术语的统一认识
具备跨部门,能够表达所有的业务
LDM在数据仓库系统中的地位
风险引擎数据接口 报表模型 多维分析模型 星型模型
支撑银行全面风险管理
• 实现全面风险数据的统一管理和全景视图,为实现全面、高效、及时的风险计 量、识别、报告提供数据基础,提升风险管理水平。
独立数据集市 Data Mart #1 Non-conformed Dimensions and Facts Data Mart #2
风险数据集市数据架构
风险计算引擎 监管报表 多维分析
绩效衡量和资本分配 合规性与披露 信用风险 防欺诈和反洗钱 操作风险 流动性风险 市场风险 风险引擎数据接口 活期存款 定期存款 储蓄国债 衍生品 储蓄国债
ROLAP表示基于关系数据库的OLAP实现(Relational OLAP) MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)
ROLAP vs MOLAP
ROLAP MOLAP
沿用现有关系数据库技术 响应速度相对molap要慢
数据转载计算速度快
专用技术 性能好,响应速度快
数据仓库建模方法论
主题 数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程
数据仓库领域的两位大师
Ralph Kimball 数据仓库方面的知名学者 理论:Mutildimensional Architecture(MD)
主要著作:《数据仓库工具箱-维度建模的完全指南》、
数据转载速度慢 需要进行预计算,可能导致数据爆炸, 维数有限,无法支持维的动态变化 受操作系统平台文件大小限制,难以达 到tb级
存储空间耗费小,维数没有限制
借助rdbms对数据存储,无文件大小限 制
可以通过sql语句实现详细数据和概要数 缺乏数据模型和数据访问的标准 据的存储 不支持预计算的读写操作 无法完成维之间的运算 无法完成多行计算 支持高性能的决策支持计算 复杂的跨维计算 多用户读写操作 行级计算
应用集市层
面向应用 按需定制 多维建模 汇总数据
汇总层
数据挖掘模型
当事人 资产 协议
财务 事件 计量结果
产品
内部机构 市场数据
整合模型层
面向整合 主题设计 提供规范和共享
技术缓冲层
核心 系统 对公 信贷 票据 系统
…..
复杂 交易
储蓄 国债
市场 数据
ETL专用的纯技术层 完全与源系统结构一致
核心 系统
对公 信贷
票据 系统
…..
近源模型层
复杂 交易 储蓄 国债 市场 数据
基本依照源系统建模 尽量保持业务系统原貌
设计思路比较
ODS
目标
•短期的,细节的,同源的 数据存储; •直接提供基于源系统结构 的简单原貌访问; •为BI环境中适合的业务需 求提供支持 •简单处理,不考虑整合; •关注保留策略; •偏源系统模型; •根据支持应用情况可以保 留短期历史
数据仓库的特点
面向主题:操作型数据库的数据组织面向事物处理任务,各个业务系统之间各自分 离,而数据仓库中的数据是按照一定的主题域进行组织的。例如:当事人、协议、 机构、财务、事件、产品等主题。 集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过 系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内 的信息是关于整个企业的一致的全局信息。 相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是 数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数 据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、 刷新。
反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一 时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对 企业的发展历程和未来趋势做出定量分析和预测。
企业信息工厂
数据仓库总线
企业总线
总线架构矩阵
多维体系结构与企业信息工厂体系结构比较
方面 范围 角度 多维体系结构
•面向具体应用 •按需设计 •形式各异,依 具体应用不同;
•针对业务目标、挖掘算法 设计数据模型 • 一条记录表示一个观测 • 多条记录表示一个观测
重点
•理解源结构
•整体性 •一致性
• 业务理解 • 数据理解 • 数据准备 • 特定业务专题
用途
•业务原貌查询 •即时报表 •数据质量检查
应用层
报表模型
多维分析模型
星型模型 风险缓释 公共信息
零售信贷
公司信贷 票据信息 同业拆借
汇总层 理财产品
会计单元
交易流水
市场数据
计量结果 参与者 债券投资
数据挖掘 模型
风 险 计 量 结 果 返 回 O D S
Enterprise Date Warehouse ODS
风险数据集市建设目标
数据整合,数据标准
数据流
聚集数据集市:当业务过程发生变化,为了消除
易失性
数据仓库模型是与过程无关的,它摒弃了由于处理过程影响而带来的变化 或减少对事实表重建,需要增加新的维或改变维。 数据仓库模型的设计依赖于企业的业务规则,而不依赖与在其上将运行什么查询。 原子数据集市:由于事实表可能包含几亿甚至更 如果一个已经建好的数据集市需要改变或加强,可以根据存储在数据仓库中的细节数据合 多的数据,重建将会带来严重后果 理且快速地进行重建
OLTP与OLAP
OLTP
用户 操作人员,低层管理人员
OLAP
决策人员,高级管理人员
功能 DB 设计
数据 存取 工作单位 用户数 DB 大小
日常操作处理 面向应用 当前的, 最新的细节的, 二 维的 读/写数十条记录 简单的事务 上千个 100MB-GB
分析决策 面向主题 历史的, 聚集的, 多维的集成的, 统一的 读上百万条记录 复杂的查询 上百个 100GB-TB
优先考虑业务单位范围 关心业务部门的需求 多维建模师以企业视角,建立一致性维度。 实施方法采用自底向上的:如何快速的获取由用 户控制的业务部门专有的数据,并最小限度的考 虑整个企业的使用 快速需求收集和实现过程使得为整个环境提供一 致而可靠数据的任务变得复杂。
企业信息工厂体系结构
优先考虑企业总体范围 从企业角度解决供应源数据的问题,但并不是整个企业的数据必须在项目第一个阶段都处 理。相反而是选择企业所有数据的一个子集。 实施方法是自顶向下的:企业数据利用业务需求将数据从数据源推至需要这些数据的地方, 其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。 为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销,需要更多 的时间和代价。但后续项目则需要较少时间和代价,尤其对于使用现有的、健全的主题 域的业务单位更是如此。 实现对存储空间最小需求,非冗余方式防止了在多个位臵存储数据。这种特性使更新或删 除异常最小化或者消除。
灵活性 复杂性 功能性
多维设计是很多业务过程聚集在一起的结果。当 处理请求发生变化时,多维数据库的设计未必能 够适度地变化。 数据集市模型易于业务人员理解。可以很容易构 建数据集市,然而,当一个一个地建立数据集市 时,由于数据的企业视图的复杂性,对Байду номын сангаас这种结 构,完成更新时相当复杂的。 为多维处理提供了理想环境,切片和切块、上钻 和下钻等查询提供良好的性能
《数据仓库生命周期工具箱- 设计、开发和部署数据仓库的专家方 法》 http://www.kimballgroup.com
Bill Inmon
数据仓库之父,数据仓库概念的创始人 理论: Corporate Information Factory(CIF) 主要著作:《数据仓库》、《企业信息工厂》 http://inmoncif.com
On-Line Transaction Processing
也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算 中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处 理输入的数据,及时地回答。也称为实时系统(Real time System)。衡量联机事务 处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(Response Time),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。 OLTP 数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。
持续维护
易于建立新的数据集市
加强现有数据集市 数据仓库和有关数据集市的维护和可持续发展
OLTP与OLAP
On-Line Analytical Processing
针对特定问题的联机数据访问和数据分析技术 满足对数据进行多角度、快速、一致、交互、深入观察 使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。 多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要 将数据从关系数据库中转载到多维数据库中方可访问。
• 全局考虑,提炼需求,侧重业务规则理解
数据服务
• 存储细节的、整合的所有数据,为全面风险管理应用需求提供数据支撑,为实 现高效、及时的风险管理报表自动化提供数据基础
• 为风险计量提供数据准备服务,并对风险计量结果进行整理和存储
• 外系统供数服务,实现统一的风险数据来源。
主题 数据仓库概念 数据仓库模型 逻辑数据模型 数据模型标准化工艺流程
主题 数据仓库概念 数据仓库数据架构 逻辑数据模型 数据模型标准化工艺流程
数据架构形态
各数据架构比较
数据集市类型
源系统 ODS
EDW
从属数据集市 Data Mart #1 Data Mart Conformed Dimensions and Conformed Facts Data Mart #2
数据仓库模型存放数据粒度级别为原子级别,原子级别可以任意组合。故可以支持将来未 知需求。
数据仓库中的细节数据是与处理过程无关的,因此数据仓库的数据模型使得数据不一致的 风险最小。 支持数据挖掘、统计分析和即席查询 总体目标是防止由于环境的后续构建、调整和优化而产生的高昂的代价。一个良好的数据 仓库模型将为企业提供长久的服务,将提供如下回报: 整个环境端到端一致性和集成性
企业数据仓库EDW
企业数据仓库定义: 企业数据仓库作用: 基于数据/信息来回答相关的业务 详细交易及相关业务数据的集合������ 问题和提供决策支持,并确保:一 包含必要的内部与外部信息������ 致、集成的数据存储������ 来自于多个数据源/业务操作系统������ 任意的数据粒度������ 保存一定的时间周期������ 在整个企业的业务范围������ 按照企业内业务规则所决定的模型来存储 保持企业内一致的信息视图 企业内一致的信息视图(Single Version of the Truth) >集成的企业信息(Integrated corporate information) >不针对特定应用(Application neutral) >无冗余(Non redundant) >用于报表和决策支持(Reporting and decision making) 最详细的数据和信息(Detailed Data) 任何时候,针对任意数据,提出任意业务问题(Ask any question, any data, any time)
EDW
•长期的,细节的,整 合的数据存储; •为BI环境中适合的业 务需求提供支持
Data Mart
•服务特定应用
Data Mining
• 长期历史分析性指标汇总 • 为企业提供预测性、趋势 分析性需求提供支持
原则 形式
•面向全局,数据整合 •中性设计,灵活扩展 •提供规范和共享 •面向主题设计; •偏范式化; •长期保留历史 •主题定义 •框架设计 •整合策略 •实施方法 •灵活查询 •整合规则检查
为什么需要逻辑数据模型
为复杂的数据仓库系统实施提供了规范和 基础结构-蓝图
促进业务部门用户和IT分析人员之间的有 效沟通 明确业务需求 解决业务问题
形成对重要业务定义和术语的统一认识
具备跨部门,能够表达所有的业务
LDM在数据仓库系统中的地位
风险引擎数据接口 报表模型 多维分析模型 星型模型