数据仓库基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 目的是把数据库中的大量数据转化为有用 信息,为企业更好地进行决策服务。
数据仓库基本概念
讨论话题一
• 数据仓库产生的源动力是什么?数据仓库 系统是数据驱动还是需求驱动的?
数据仓库基本概念
市场需求是技术发展的源动力
“我们花了20多年的时间将数据放入数据 库,如今是该将它们拿出来的时候了。”
----著名的数据仓库专家Ralph Kimball
• 决策支持系统的发展阶段
– 初始阶段(DSS阶段) – 与专家系统结合阶段(IDSS阶段) – 基于数据仓库技术阶段(BI阶段)
• 基于数据仓库的决策支持系统
数据仓库基本概念
DSS的先天不足
DSS的先天不足
– 决策所需信息不足,难以满足决策支持系统的 需要。
– 模型库提供的分析能力有限 – 人机接口部件占整个DSS开发工作量的一半 ,
总部
站点B
局部数 据仓库
局部数 据仓库
站点D
数据仓库基本概念
讨论话题三
• 数据仓库、数据集市、分析主题的关系是 什么?
• 在数据集市间如何保证数据的一致性?
数据仓库基本概念
1.5数据仓库相关概念
• BI(商务智能) • ETL(抽取、转换、加载) • META DATA(元数据) • DATA MART(数据集市) • SUBJECT(主题) • DIMENSION(维度)
即”小数据仓库”。如果说数据仓库是建立在 企业级的数据模型之上的话。那么数据集市就 是企业级数据仓库的一个子集,他主要面向部 门级业务,并且只是面向某个特定的主题。数 据集市可以在一定程度上缓解访问数据仓库的 瓶颈。
数据仓库基本概念
主题
主题(SUBJECT)
是一个在较高层次将数据归类的标准,每一 个主题对应一个宏观的分析领域,针对具体决 策需求可细化为多个主题表,具体来说就是确 定决策涉及的范围和所要解决的问题。
成为DSS实施中的一个瓶颈。
数据仓库基本概念
基于数据仓库的DSS
基于数据仓库的DSS
– 数据仓库为DSS的发展开辟了新途径 – 目前DSS的开发模式(BI解决方案)
• 以数据仓库技术为基础 • 以联机分析、数据挖掘工具为手段
数据仓库基本概念
数据源
外部数据 业务数据系统 市场调查信息 专家经验数据
数据仓库基本概念
数据集成性
• 根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,最终集成到数据 仓库中。
业务数据库1
抽
取
转
业务数据库2
换
清
数据仓库
洗
……
加
载
业务数据库n
数据仓库基本概念
数据的时变性
• 数据应该随着时间的推移而发生变化,不断地 生成主题的新快照。
存量数据
抽
面向主题性
• 面向主题性表示了数据仓库中数据组织的基本 原则,数据仓库中的所有数据都是围绕着某一 主题组织的。
• 确定主题以后,需要确定主题应该包含的数据。 • 不同的主题之间可能会出现相互重叠的信息。 • 主题在数据仓库中可以用多维数据库方式进行
存储。 • 主题的划分中,必须保证每一个主题的独立性。
数据仓库基本概念
1.2数据仓库定义及基本特性
• 1.2.1数据仓库定义 • 1.2.2数据仓库基本特性
数据仓库基本概念
1.2.1数据仓库定义
数据仓库(Data Warehouse)是一个 • 面向主题的(Subject Oriented) • 集成的(Integrate) • 相对稳定的(Non-Volatile) • 反映历史变化(Time Variant)
数据仓库基本概念
2020/11/21
数据仓库基本概念
数据仓库基本概念
• 1.1从传统数据库到数据仓库 • 1.2数据仓库定义及基本特性 • 1.3数据仓库与决策支持系统 • 1.4数据仓库体系结构 • 1.5数据仓库相关概念
数据仓库基本概念
1.1从传统数据库到数据仓库
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息, 去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业 价值信息的技术,传统数据库系统无法承担这 一责任。因为传统数据库的处理方式和决策分 析中的数据需求不相称。这些不相称性主要表 现在决策处理中的系统响应问题、决策数据需 求的问题和决策数据操作的问题。
品放在一起,以增加销售; • 保险公司想知道购买保险的客户一般具有
哪些特征; • 医学研究人员希望从已有的成千上万份病
历中找出患某种疾病的病人的共同特征, 从而为治愈这种疾病提供一些帮助; • ……
数据仓库基本概念
企业面临的问题
• 经过多年的计算机应用和市场积累,许多 企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录
数据仓库 查询管理
服务器
数据仓库基本概念
1.4.4单一数据仓库结构
• 将所有的主题都集中到一个大型数据库中的体 系结构。数据源中数据被按照同一标准抽取到 独立的数据仓库中,用户在使用时再根据主题 将数据仓库中的数据发布到数据集市中。
业务 系统 数据
库
数据 仓库
数据 集市
1
数据 集市
2
数据仓库 查询管理
…
1.4数据仓库体系结构
数据仓库管理环境
接
口
细节级数据
数据集市1
数据集市2 …
数据集市n
ETL逻辑
数据仓库组织与管理 元数据(MetaData)
数据利用
数据集市x
∑
主题数据 ∑
∑
主题数据
主题数据
应用环境
OLAP
DataMining
Forecasting
…
数据仓库基本概念
1.4.1数据仓库的概念结构
数据仓库基本概念
ETL
抽取、转换、加载(ETL)
数据抽取(Extract)、转换Transform)、 清洗(Cleansing)、装载(Load)的过程。 是构建数据仓库的重要一环,用户从数据源抽 取出所需的数据,经过数据清洗,最终按照预 先定义好的数据仓库模型,将数据加载到数据 仓库中去。
数据仓库基本概念
数据仓库基本概念
3rew
演讲完毕,谢谢听讲!
再见,see you again
2020/11/21
数据仓库基本概念
取
转
T1时点增量数据
换
清
洗
……
加
载
Tn时点增量数据
数据仓库
初始主题数据 T1时点主题数据
…… Tn时点主题数据
数据仓库基本概念
数据的非易失性
• 数据的相对稳定性。 • 数据仓库中的数据只进行刷新,从不进行更新处理。 • 反映历史变化。
存量数据
抽
取
转
T1时点增量数据
换
清
洗
……
加
载
Tn时点增量数据
初始主题数据
高度结构化、复杂、适 合操作计算
高
每个事务只访问少量记 录
以秒为单位计量
数据仓库 历史的、存档的、归纳的、计 算的数据 面向主题域、管理决策分析应 用 静态、不能直接更新、只定时 添加 简单、适合分析
中到低 有的事务可能要访问大量记录
以秒、分钟、甚至小时为计量 单位
数据仓库基本概念
1.3数据仓库与决策支持系统
服务器
数据仓库基本概念
1.4.5分布式数据仓库结构
• 在企业各个分公司具有相当大的独立性时,企业总部设 置一个全局数据仓库,各个分公司设置各自的局部数据 仓库。局部数据仓库主要存储各自的未经转换的细节数 据,全局数据仓库中主要存储经过转换的综合数据。
站点A
局部数 据仓库
局部数 据仓库
站点C
全局数 据仓库
• 从数据仓库的概念结构看,应该包含:数据源、 数据准备区、数据仓库数据库、数据集市/知 识挖掘库以及各种管理工具和应用工具。
业务系统
外部数 据源
数据
集市/
数
数
据
据
准
仓 库
备
数
知识 挖掘 库
应用工具
区
据
库
数据 集市/
知识
应用工具
挖掘
库
管理工具
数据仓库基本概念
1.4.2 虚拟数据仓库结构
• 虚拟数据仓库利用描述了业务系统中数据位置和抽取数 据算法的元数据直接从业务系统中抽取查询的数据进行 概括、聚合操作后,将最终结果提供给用户。
数据仓库基本概念
面临的挑战
• 如何在堆积如山的企业交易数据中发现具 有商业价值的闪光点?
• 如何使您的企业或组织在激烈的市场竞争 中保持对客户的吸引力?
• 如何预先发现和避免企业运作过程中不易 察觉的商业风险?
数据仓库基本概念
数据仓库应运而生
• 数据仓库的出现和发展是数据库和OLTP技 术发展、数据库应用深化的产物;
的数据集合,用于支持管理决策。
数据仓库基本概念
1.2数据仓库定义
• 数据仓库是在企业管理和决策中面向主题的、 集成的、与时间相关的、不可修改的数据集合。
数据仓库之父--Bill Inmon
数据仓库基本概念
1.2数据仓库基本特性
面向主题性 数据集成性 数据的时变性 数据的非易失性
数据仓库基本概念
数据仓库
T1时点主题数据 ……
Tn时点主题数据
时间戳锁定数据
数据仓库基本概念
讨论话题二
• 数据库和数据仓库有什么不同?
数据仓库基本概念
数据库与数据仓库的对比
对比内容 数据内容
数据库 当前值
数据目标 数据特性
面向业务操作程序、重 复处理
动态变化、按字段更新
数据结构
使用频率 数据访问量
对响应时间的 要求
数据仓库基本概念
1.1从传统数据库到数据仓库(续)
• 传统的事务处理环境不适宜于决策支持应 用
– 事务处理和分析处理的性能特性不同 – 数据集成问题 – 数据动态集成问题 – 历史数据问题 – 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
数据仓库基本概念
现实生活中面临的问题
人们在日常生wenku.baidu.com中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商
数据仓库基本概念
商务智能
• 简单定义 综合企业所有沉淀下来的信息,用科学的分析方
法,为企业领导提供科学决策信息的过程。 • 完整定义
基于数据仓库技术的决策支持系统(DSS)。它 以数 据仓库(DW)技术为基础,通过抽取、转换和清洗 将分散在企业各处的数据整合在一起,转化为信息; 进而以联机分析处理(OLAP)工具、数据挖掘(DM) 工具、报表工具为手段将信息提升为知识;最后运 用可视化技术以快捷直观的方式将探察分析结果呈 现给最终用户,为管理决策层提供量化依据的过程。
元数据
元数据(Meta Data)
关于数据仓库的数据,指在数据仓库建设过程中 所产生的有关数据源定义,目标定义,转换规则 等相关的关键数据。同时元数据还包含关于数据 含义的商业信息,所有这些信息都应当妥善保存, 并很好地管理。为数据仓库的发展和使用提供方 便。
数据仓库基本概念
数据集市
数据集市(Data mart)
业务系统数用户 据库
数据仓库查 询管理服务
器 图1.2 虚拟数据仓库结构
数据仓库基本概念
1.4.3数据集市结构
• 数据集市结构或称为主题结构的数据仓库是按 照主题进行构思所形成的数据仓库,没有一个 独立的数据仓库。系统的数据不存储在同一数 据仓库中,每个主题有自己的物理存储区。
业务系统数 据库
主题1 主题2
• 由于缺乏集中存储和管理,这些数据不能 为本企业加以利用, 不能进行有效的统计、 分析及评估,无法将这些数据转换成企业 有用的信息
数据仓库基本概念
数据爆炸问题
– 自动的数据收集工具和成熟的数据库技术导致 巨大的数据存储在文件系统、数据库和其它的 信息库中 。
– 我们会淹死在数据中, 但却为信息、知识所饿!
数据仓库基本概念
讨论话题一
• 数据仓库产生的源动力是什么?数据仓库 系统是数据驱动还是需求驱动的?
数据仓库基本概念
市场需求是技术发展的源动力
“我们花了20多年的时间将数据放入数据 库,如今是该将它们拿出来的时候了。”
----著名的数据仓库专家Ralph Kimball
• 决策支持系统的发展阶段
– 初始阶段(DSS阶段) – 与专家系统结合阶段(IDSS阶段) – 基于数据仓库技术阶段(BI阶段)
• 基于数据仓库的决策支持系统
数据仓库基本概念
DSS的先天不足
DSS的先天不足
– 决策所需信息不足,难以满足决策支持系统的 需要。
– 模型库提供的分析能力有限 – 人机接口部件占整个DSS开发工作量的一半 ,
总部
站点B
局部数 据仓库
局部数 据仓库
站点D
数据仓库基本概念
讨论话题三
• 数据仓库、数据集市、分析主题的关系是 什么?
• 在数据集市间如何保证数据的一致性?
数据仓库基本概念
1.5数据仓库相关概念
• BI(商务智能) • ETL(抽取、转换、加载) • META DATA(元数据) • DATA MART(数据集市) • SUBJECT(主题) • DIMENSION(维度)
即”小数据仓库”。如果说数据仓库是建立在 企业级的数据模型之上的话。那么数据集市就 是企业级数据仓库的一个子集,他主要面向部 门级业务,并且只是面向某个特定的主题。数 据集市可以在一定程度上缓解访问数据仓库的 瓶颈。
数据仓库基本概念
主题
主题(SUBJECT)
是一个在较高层次将数据归类的标准,每一 个主题对应一个宏观的分析领域,针对具体决 策需求可细化为多个主题表,具体来说就是确 定决策涉及的范围和所要解决的问题。
成为DSS实施中的一个瓶颈。
数据仓库基本概念
基于数据仓库的DSS
基于数据仓库的DSS
– 数据仓库为DSS的发展开辟了新途径 – 目前DSS的开发模式(BI解决方案)
• 以数据仓库技术为基础 • 以联机分析、数据挖掘工具为手段
数据仓库基本概念
数据源
外部数据 业务数据系统 市场调查信息 专家经验数据
数据仓库基本概念
数据集成性
• 根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,最终集成到数据 仓库中。
业务数据库1
抽
取
转
业务数据库2
换
清
数据仓库
洗
……
加
载
业务数据库n
数据仓库基本概念
数据的时变性
• 数据应该随着时间的推移而发生变化,不断地 生成主题的新快照。
存量数据
抽
面向主题性
• 面向主题性表示了数据仓库中数据组织的基本 原则,数据仓库中的所有数据都是围绕着某一 主题组织的。
• 确定主题以后,需要确定主题应该包含的数据。 • 不同的主题之间可能会出现相互重叠的信息。 • 主题在数据仓库中可以用多维数据库方式进行
存储。 • 主题的划分中,必须保证每一个主题的独立性。
数据仓库基本概念
1.2数据仓库定义及基本特性
• 1.2.1数据仓库定义 • 1.2.2数据仓库基本特性
数据仓库基本概念
1.2.1数据仓库定义
数据仓库(Data Warehouse)是一个 • 面向主题的(Subject Oriented) • 集成的(Integrate) • 相对稳定的(Non-Volatile) • 反映历史变化(Time Variant)
数据仓库基本概念
2020/11/21
数据仓库基本概念
数据仓库基本概念
• 1.1从传统数据库到数据仓库 • 1.2数据仓库定义及基本特性 • 1.3数据仓库与决策支持系统 • 1.4数据仓库体系结构 • 1.5数据仓库相关概念
数据仓库基本概念
1.1从传统数据库到数据仓库
• 随着市场竞争的加剧,信息系统的用户已经不 满足于仅仅用计算机去处理每天所发生的事务 数据,而是需要信息——能够支持决策的信息, 去帮助管理决策。这就需要一种能够将日常业 务处理中所收集到的各种数据转变为具有商业 价值信息的技术,传统数据库系统无法承担这 一责任。因为传统数据库的处理方式和决策分 析中的数据需求不相称。这些不相称性主要表 现在决策处理中的系统响应问题、决策数据需 求的问题和决策数据操作的问题。
品放在一起,以增加销售; • 保险公司想知道购买保险的客户一般具有
哪些特征; • 医学研究人员希望从已有的成千上万份病
历中找出患某种疾病的病人的共同特征, 从而为治愈这种疾病提供一些帮助; • ……
数据仓库基本概念
企业面临的问题
• 经过多年的计算机应用和市场积累,许多 企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录
数据仓库 查询管理
服务器
数据仓库基本概念
1.4.4单一数据仓库结构
• 将所有的主题都集中到一个大型数据库中的体 系结构。数据源中数据被按照同一标准抽取到 独立的数据仓库中,用户在使用时再根据主题 将数据仓库中的数据发布到数据集市中。
业务 系统 数据
库
数据 仓库
数据 集市
1
数据 集市
2
数据仓库 查询管理
…
1.4数据仓库体系结构
数据仓库管理环境
接
口
细节级数据
数据集市1
数据集市2 …
数据集市n
ETL逻辑
数据仓库组织与管理 元数据(MetaData)
数据利用
数据集市x
∑
主题数据 ∑
∑
主题数据
主题数据
应用环境
OLAP
DataMining
Forecasting
…
数据仓库基本概念
1.4.1数据仓库的概念结构
数据仓库基本概念
ETL
抽取、转换、加载(ETL)
数据抽取(Extract)、转换Transform)、 清洗(Cleansing)、装载(Load)的过程。 是构建数据仓库的重要一环,用户从数据源抽 取出所需的数据,经过数据清洗,最终按照预 先定义好的数据仓库模型,将数据加载到数据 仓库中去。
数据仓库基本概念
数据仓库基本概念
3rew
演讲完毕,谢谢听讲!
再见,see you again
2020/11/21
数据仓库基本概念
取
转
T1时点增量数据
换
清
洗
……
加
载
Tn时点增量数据
数据仓库
初始主题数据 T1时点主题数据
…… Tn时点主题数据
数据仓库基本概念
数据的非易失性
• 数据的相对稳定性。 • 数据仓库中的数据只进行刷新,从不进行更新处理。 • 反映历史变化。
存量数据
抽
取
转
T1时点增量数据
换
清
洗
……
加
载
Tn时点增量数据
初始主题数据
高度结构化、复杂、适 合操作计算
高
每个事务只访问少量记 录
以秒为单位计量
数据仓库 历史的、存档的、归纳的、计 算的数据 面向主题域、管理决策分析应 用 静态、不能直接更新、只定时 添加 简单、适合分析
中到低 有的事务可能要访问大量记录
以秒、分钟、甚至小时为计量 单位
数据仓库基本概念
1.3数据仓库与决策支持系统
服务器
数据仓库基本概念
1.4.5分布式数据仓库结构
• 在企业各个分公司具有相当大的独立性时,企业总部设 置一个全局数据仓库,各个分公司设置各自的局部数据 仓库。局部数据仓库主要存储各自的未经转换的细节数 据,全局数据仓库中主要存储经过转换的综合数据。
站点A
局部数 据仓库
局部数 据仓库
站点C
全局数 据仓库
• 从数据仓库的概念结构看,应该包含:数据源、 数据准备区、数据仓库数据库、数据集市/知 识挖掘库以及各种管理工具和应用工具。
业务系统
外部数 据源
数据
集市/
数
数
据
据
准
仓 库
备
数
知识 挖掘 库
应用工具
区
据
库
数据 集市/
知识
应用工具
挖掘
库
管理工具
数据仓库基本概念
1.4.2 虚拟数据仓库结构
• 虚拟数据仓库利用描述了业务系统中数据位置和抽取数 据算法的元数据直接从业务系统中抽取查询的数据进行 概括、聚合操作后,将最终结果提供给用户。
数据仓库基本概念
面临的挑战
• 如何在堆积如山的企业交易数据中发现具 有商业价值的闪光点?
• 如何使您的企业或组织在激烈的市场竞争 中保持对客户的吸引力?
• 如何预先发现和避免企业运作过程中不易 察觉的商业风险?
数据仓库基本概念
数据仓库应运而生
• 数据仓库的出现和发展是数据库和OLTP技 术发展、数据库应用深化的产物;
的数据集合,用于支持管理决策。
数据仓库基本概念
1.2数据仓库定义
• 数据仓库是在企业管理和决策中面向主题的、 集成的、与时间相关的、不可修改的数据集合。
数据仓库之父--Bill Inmon
数据仓库基本概念
1.2数据仓库基本特性
面向主题性 数据集成性 数据的时变性 数据的非易失性
数据仓库基本概念
数据仓库
T1时点主题数据 ……
Tn时点主题数据
时间戳锁定数据
数据仓库基本概念
讨论话题二
• 数据库和数据仓库有什么不同?
数据仓库基本概念
数据库与数据仓库的对比
对比内容 数据内容
数据库 当前值
数据目标 数据特性
面向业务操作程序、重 复处理
动态变化、按字段更新
数据结构
使用频率 数据访问量
对响应时间的 要求
数据仓库基本概念
1.1从传统数据库到数据仓库(续)
• 传统的事务处理环境不适宜于决策支持应 用
– 事务处理和分析处理的性能特性不同 – 数据集成问题 – 数据动态集成问题 – 历史数据问题 – 数据的综合问题
• 操作型环境和分析型环境的分离:数据抽取
数据仓库基本概念
现实生活中面临的问题
人们在日常生wenku.baidu.com中经常会遇到这样的情况: • 超市的经营者希望将经常被同时购买的商
数据仓库基本概念
商务智能
• 简单定义 综合企业所有沉淀下来的信息,用科学的分析方
法,为企业领导提供科学决策信息的过程。 • 完整定义
基于数据仓库技术的决策支持系统(DSS)。它 以数 据仓库(DW)技术为基础,通过抽取、转换和清洗 将分散在企业各处的数据整合在一起,转化为信息; 进而以联机分析处理(OLAP)工具、数据挖掘(DM) 工具、报表工具为手段将信息提升为知识;最后运 用可视化技术以快捷直观的方式将探察分析结果呈 现给最终用户,为管理决策层提供量化依据的过程。
元数据
元数据(Meta Data)
关于数据仓库的数据,指在数据仓库建设过程中 所产生的有关数据源定义,目标定义,转换规则 等相关的关键数据。同时元数据还包含关于数据 含义的商业信息,所有这些信息都应当妥善保存, 并很好地管理。为数据仓库的发展和使用提供方 便。
数据仓库基本概念
数据集市
数据集市(Data mart)
业务系统数用户 据库
数据仓库查 询管理服务
器 图1.2 虚拟数据仓库结构
数据仓库基本概念
1.4.3数据集市结构
• 数据集市结构或称为主题结构的数据仓库是按 照主题进行构思所形成的数据仓库,没有一个 独立的数据仓库。系统的数据不存储在同一数 据仓库中,每个主题有自己的物理存储区。
业务系统数 据库
主题1 主题2
• 由于缺乏集中存储和管理,这些数据不能 为本企业加以利用, 不能进行有效的统计、 分析及评估,无法将这些数据转换成企业 有用的信息
数据仓库基本概念
数据爆炸问题
– 自动的数据收集工具和成熟的数据库技术导致 巨大的数据存储在文件系统、数据库和其它的 信息库中 。
– 我们会淹死在数据中, 但却为信息、知识所饿!