数据仓库概述(PPT 90页)
合集下载
01数据仓库概述.ppt

9
分析决策人员的挑战
组织内部
横向共享信息 数据的重构 个人授权 服务和质量管理
组织之间
合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链
市场
竞争对手 市场分割 实时的市场行情 全球化
10
数据可信性
数据没有同一时间基准
例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论
销售 客户 索赔
产品 帐户
政策
25
面向主题的数据组织
主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析
对象的数据的一个完整、一致的描述。 采用面向事务进行数据组织,其特点为:
充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很
长。
13
从数据到信息
例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、
信托,而这些应用并未集成。 没有足够的历史数据:
贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的系统
操作型系统,OLTP
下订单 处理呼叫 装货 开发货单 收取现金 预定座位
将数据写入数据库
►信息型系统
▪ 给我销售量最好的产品名单 ▪ 告诉我出问题的地区 ▪ 告诉我为什么(向下钻取) ▪ 让我看看其他的数据(横向
钻取) ▪ 显示最大利润 ▪ 当一个地区的销售低于目标
分析决策人员的挑战
组织内部
横向共享信息 数据的重构 个人授权 服务和质量管理
组织之间
合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链
市场
竞争对手 市场分割 实时的市场行情 全球化
10
数据可信性
数据没有同一时间基准
例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论
销售 客户 索赔
产品 帐户
政策
25
面向主题的数据组织
主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析
对象的数据的一个完整、一致的描述。 采用面向事务进行数据组织,其特点为:
充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很
长。
13
从数据到信息
例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、
信托,而这些应用并未集成。 没有足够的历史数据:
贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的系统
操作型系统,OLTP
下订单 处理呼叫 装货 开发货单 收取现金 预定座位
将数据写入数据库
►信息型系统
▪ 给我销售量最好的产品名单 ▪ 告诉我出问题的地区 ▪ 告诉我为什么(向下钻取) ▪ 让我看看其他的数据(横向
钻取) ▪ 显示最大利润 ▪ 当一个地区的销售低于目标
《数据仓库》课件

数据存储与组织
数据存储
01
选择合适的存储介质和存储方式,确保数据的安全、可靠和高
效。
数据组织
02
根据业务需求和数据特点,设计合理的数据模型和数据结构。
数据索引
03
建立索引以加速数据的查询和检索速度。
数据查询与报表
数据查询
提供灵活、高效的数据查 询功能,支持各种复杂查 询和条件筛选。
报表生成
根据业务需求生成各种报 表,支持自定义报表和可 视化展示。
05 数据仓库的挑战与未来发 展
数据仓库的挑战
数据整合难度大
数据仓库需要从各个业务系统整合数据,但不同业务系统的数据格式 、标准可能存在差异,导致数据整合难度加大。
数据处理效率低
随着数据量的增长,传统的数据处理方法可能无法满足实时性要求, 影响数据处理效率。
数据安全性问题
数据仓库存储大量敏感数据,如何保障数据的安全性、隐私性是一大 挑战。
详细描述
数据仓库的数据量通常非常大,可以存储数百万条甚至数十亿条记录。为了保证数据质量,数据仓库 中的数据需要进行清洗、转换和整合,确保数据的准确性和完整性。此外,数据仓库还具有数据一致 性和数据安全性的特点,能够保证数据的可靠性和保密性。
数据仓库的分类
总结词
根据数据仓库的实现方式和使用场景,可以将数据仓库分为操作型数据仓库和分析型数 据仓库两类。
04 数据仓库的应用
金融行业应用
总结词
金融行业是数据仓库应用的重要领域, 涉及风险管理、客户关系管理、投资决 策等多个方面。
VS
详细描述
金融行业对数据的需求非常高,需要处理 大量的交易数据、客户数据和市场数据。 数据仓库能够提供稳定、高效的数据存储 和处理能力,支持金融业务的决策分析和 风险控制。
数据仓库之概念描述PPT课件( 84页)

第七章 概念描述
7.1 概念描述基本知识 7.2 数据概化与基于汇总的特征化 7.3 解析特征化—属性相关分析 7.4 挖掘概念比较—区分不同的类
第七章 概念描述(续)
DB中存放大量细节性数据,而用户 通常希望以简洁的描述形式观察汇总的
数据集。这种描述可提供某类数据的概 貌以及与其他数据类的区别。此外,用
初始工作关系:任务相关数据的集合
姓名 性别 专业 出生地 出生日 居住地
电话 GPA
王东海 男 李哲 男 汪燕 女
CS
合肥市
79.07.26
合肥市金寨 路65号
05513665678
3.67
CS
合肥市
80.12.08
合肥市芜湖 路186号
05513656012
3.70
PH
上海市
80.09.03
上海市高安 021路1250号 62381960
2.基于属性归纳方法(续)
例1(续):对前面得到的初始工作关系 的每个属性,概化过程如下:
1)姓名:由于姓名存在大量不同值, 并且其上没有定义概念分层,该属性被 删除。
2)性别:由于性别只有两个不同值, 该属性保留,并不对其进行概化。
2.基于属性归纳方法(续)
3)专业:假设定义了一个概念分层, 从而可以对专业属性进行概化。又假设 属性概化阈值置为5,在初始数据集合 中有25个不同取值。则通过对属性概化 和属性概化控制,专业属性被概化到指 定的概念(如:科学,工程,商学)。
这取决于属性或应用,有的用户愿 意让属性留在较低的抽象层,而另一些 用户愿意将它们概化到较高的抽象层。 控制将属性概化到多高的抽象层通常是
相当主观的。该过程的控制称为属性概 化控制。
7.1 概念描述基本知识 7.2 数据概化与基于汇总的特征化 7.3 解析特征化—属性相关分析 7.4 挖掘概念比较—区分不同的类
第七章 概念描述(续)
DB中存放大量细节性数据,而用户 通常希望以简洁的描述形式观察汇总的
数据集。这种描述可提供某类数据的概 貌以及与其他数据类的区别。此外,用
初始工作关系:任务相关数据的集合
姓名 性别 专业 出生地 出生日 居住地
电话 GPA
王东海 男 李哲 男 汪燕 女
CS
合肥市
79.07.26
合肥市金寨 路65号
05513665678
3.67
CS
合肥市
80.12.08
合肥市芜湖 路186号
05513656012
3.70
PH
上海市
80.09.03
上海市高安 021路1250号 62381960
2.基于属性归纳方法(续)
例1(续):对前面得到的初始工作关系 的每个属性,概化过程如下:
1)姓名:由于姓名存在大量不同值, 并且其上没有定义概念分层,该属性被 删除。
2)性别:由于性别只有两个不同值, 该属性保留,并不对其进行概化。
2.基于属性归纳方法(续)
3)专业:假设定义了一个概念分层, 从而可以对专业属性进行概化。又假设 属性概化阈值置为5,在初始数据集合 中有25个不同取值。则通过对属性概化 和属性概化控制,专业属性被概化到指 定的概念(如:科学,工程,商学)。
这取决于属性或应用,有的用户愿 意让属性留在较低的抽象层,而另一些 用户愿意将它们概化到较高的抽象层。 控制将属性概化到多高的抽象层通常是
相当主观的。该过程的控制称为属性概 化控制。
数据仓库概述PPT(共 57张)

决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
数据仓库的概念与体系结构PPT课件

– 围绕一些主题,如顾客、供应商、产品等 – 关注决策者的数据建模与分析,而不是集中于
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
《数据仓库技术》课件

数据质量参差不齐
数据来源多样,数据质 量难以保证,需要进行
数据清洗和校验。
数据分析需求多变
不同部门和业务场景对 数据分析的需求各不相 同,需要灵活地调整数 据仓库架构和查询方式
。
应对策略
采用分布式存储和计算 技术,提高数据存储和 处理能力;建立数据质 量管理体系,确保数据 质量;提供灵活的数据 仓库架构和查询方式, 满足多变的分析需求。
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量呈爆 炸式增长,如何高效地存储、处理和 分析这些数据成为数据仓库面临的挑 战。
机遇
大数据时代为数据仓库技术的发展提 供了广阔的空间,通过技术创新和优 化,数据仓库能够更好地应对大数据 的挑战,为企业提供更有价值的数据 分析服务。
数据仓库技术的未来发展
云端部署
AI与数据仓库的结合
随着云计算技术的成熟,数据仓库将 逐渐向云端迁移,以提高可扩展性和 灵活性。
人工智能技术的不断发展将为数据仓 库带来更多智能化功能,如自动分类 、预测等。
实时分析
随着对数据实时性的需求增加,数据 仓库将加强实时分析功能,提高数据 处理速度。
数据仓库与其他技术的结合
数据仓库与大数据技术的结合
OLAP技术
多维数据分析
OLAP支持多维数据分析,这意味着用户 可以从多个角度和维度(如时间、地点、
产品类别等)来分析数据。
A OLAP技术概述
OLAP是一种用于分析大量数据的工 具和技术,它允许用户通过多维数 据分析来深入了解数据的不同方面 。
B
C
D
可视化工具
OLAP系统通常提供各种可视化工具,如 仪表盘、报表、图表等,以帮助用户更好 地理解数据和分析结果。
数据仓库PPT

结论: 结论:
空间数据仓库是一个多种异构数据源在单个 站点以统一的模式组织的存储, 站点以统一的模式组织的存储,它的根本目 的是服务于决策支持, 的是服务于决策支持,是空间决策支持系统 SDSS)的核心。 (SDSS)的核心。
1.5 1.5 数据仓库与数据库的比较
数据仓库(DW) 数据仓库(DW) 分析型数据环境 面向空间分析(主题), 面向空间分析(主题), 支持SDSS 支持SDSS 集成的综合数据 历史数据(5-10年) 历史数据( 10年 定期加载,加载后极少更新 定期加载, 数据驱动的开发周期 CLDS) (CLDS) 数据库(DB) 数据库(DB) 操作型数据环境 面向业务, 面向业务,日常事务处理
高级数据库系统
基于WEB的空间数据库系统 的空间数据库系统 基于
90年代 90年代 到现在
空间数据分库和数据挖掘 空间属性一体化数据库系统) (空间属性一体化数据库系统)
基于XML的数据系统 的数据系统 基于
2000年 2000年 之后
第一代综合信息系统
空间数据库和联机处理 OLAP 空间数据挖掘SDM和知 空间数据挖掘 和知 识发现 KDD
集成的
具有关联机制, 具有关联机制,可为辅助决策集成多个不 同部门不同系统的大量数据异构空间。 同部门不同系统的大量数据异构空间。
稳定性
进入空间数据仓库的数据是不能或极少更 新的。 新的。
不同时间的
空间数据仓库内包含了大量历史数据, 空间数据仓库内包含了大量历史数据,时 限为5 10年 主要用于进行时间趋势分析。 限为5—10年,主要用于进行时间趋势分析。
1.2 空间数据仓库的概念
• 数据仓库的创始人 数据仓库的创始人W·H·Inmon曾经给数据 曾经给数据 仓库( 仓库(DW)下过一个定义:数据仓库是数 )下过一个定义: 据仓库向空间维的扩展, 据仓库向空间维的扩展,它是一个支持决 策过程的、面向主题的、集成的、稳定的、 策过程的、面向主题的、集成的、稳定的、 不同时间的空间数据的集合。 不同时间的空间数据的集合。
数据仓库ppt课件

精选编辑ppt
3
数据仓库——发展
数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提 出,主要功能是将组织透过资讯系统和联机事务处理(OLTP)经年累月 所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一 有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数 据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主 管资讯系统(EIS)之创建,帮助决策者能快速有效的从大量资料中,分 析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建 构商业智能(BI)。
精选编辑ppt
4
数据仓库——特征
1.数据仓库是面向主题的; 操作型数据库的数据组织面向事务处理任务,而数据仓库中的数
据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决 策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2.数据仓库是集成的;
数据仓库的数据有来自于分散的操作型数据,将所需数据从原来 的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据 仓库。 3.数据仓库是不可更新的;
元数据:是描述数据仓库内数据的结构和建立方法的数据。它为访问 数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有 什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户 通过他来了解和访问数据。
数据集市:是从数据仓库中独立出来的一部分数据,也可称为部门数 据或主题数据。在数据仓库的实施过程中往往可以从一个部门的数据 集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注 意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容, 这样在以后实施数据仓库时才不会造成大麻烦。
数据仓库简介-PPT课件

9
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.数据处理的效率很低
• 在错综复杂的体系中,不同级别的数据库可能使用不同类型的数 据库系统,对于有巨型数据量的企业级数据库可能使用IBM DB2, 对于中小型数据库可能使用SQL Server。各种数据库的开发工具 和开发环境不同,抽取程序应用的技术不同,因而难以集成。
•
如果一个大型企业的决策者需要一份关于公司整体运营情况
1.3 仓库理的数据通常是企业业务的细节信息,其目标是实
现企业的业务运营;而分析型系统的使用人员通常是
企业的中高层的管理者,或者是从事数据分析的工程
师。分析型系统包含的信息而非具体的细节,其目的
是为企业的决策者提供支持信息。操作型系统和分析
于历史数据的存储时间也不同,因此以现有的数据库系统难以提
供完整的历史数据,鉴于这样的原因,用户根本不可能从这些数
据中提取出完整的信息。
DW&DM
咨询数据库 财务数据库
2年 1年
呼叫记录
3个月
需要3年的数据
图1-4 现有数据库系统难以提供完整的数据历史数据
时间
1.1 数据库到数据仓库的演变 第一章 数据仓库概述
户的满意程度,国家的政策等,市场部门引用的外部信息来源可能与计
划部不同,而外部信息必然是仁者见仁,智者见智,这也可能是导致最
终分析结果不同。
•
最后,市场部门使用的分析程序可能与计划部不同,通过上面的分
析,我们可以看出导致两个分析过程出现截然相反的结论的根本原因是
数据的来源部一致,对于不同来源的数据的分析结果显然是不一致的。
1.3 仓库的应用前景
DW&DM
1.2 数据仓库体系结构
一、数据仓库体系结构(图 1-6) 由于数据库和数据仓库的出发点不同,数据仓库将独立于业务数据库系统,
但是数据仓库又同数据库系统息息相关。也就是说,数据仓库不是简单对数据进 行存储,而是对数据进行“再组织”。
的报表,通常需要动用大量的人力和物力才能达到,首先,需要
确定报表涉及的内容分布在哪个数据库的哪个位置,然后调动各
个部门的程序员\分析员对应用进行分析,设计和编码。
•
由于数据分散在各个数据库中,因此需要编写的程序很多。
由于在企业中使用的数据库类型很多,因此可能需要使用多种的
技术来实现。程序的重用性很差,因为决策者明天想看的内容很
过程和结果。市场部认为“业务A的市场前景很好”,而计划部却得到截然相反的结 果“业务A没有市场前景”。作为企业的最棕决策者,将如何根据这样的结论进行决 策呢?
1.1 数据库到数据仓库的演变 第一章 数据仓库概述
1.3 仓库的应用前景
DW&DM
企业级 部门极 个人级 抽取程
图1-1 企业中存在的“蜘蛛网”现象
可能和今天是不同的。可见,动用大量的人力,物力和时间才能
完成的报表不仅实效性很差,数据处理的效率也很低。
DW&DM
以数据库为中心 以数据仓库为中心
应用A 应用B 应用C
操作应用A 操作应用B 操作应用C
数据库
生产环境 数据库
以数据库为中心
生产环境
数据库
以数据仓库为中心
分析应用A 分析应用B 分析应用C
型系统的划分如图1-4所示。
•
操作型处理和分析型处理的分离,划清了数据处
理的分析型环境和操作型环境之间的界限,从而由原
来以单一数据库为中心的数据环境发展为以数据库为
中心的业务处理系统和以数据仓库为基础的分析系统。
企业的生产环境,也由以数据库为中心的环境发展为
以数据仓库为中心的环境,如图1-5所示。
DW&DM
以数据库为中心 以数据仓库为中心
应用A 应用B 应用C
操作应用A 操作应用B 操作应用C
数据库
生产环境 数据库
以数据库为中心
生产环境
数据库
以数据仓库为中心
分析应用A 分析应用B 分析应用C
图1-5 以数据库为中心的环境发展为以数据仓库为中心的环境的过程示意图
1.1 数据库到数据仓库的演变 第一章 数据仓库概述
1.1 数据库到数据仓库的演变 第一章 数据仓库概述
1.3 仓库的应用前景
DW&DM
外部信息
外部市场信息A 外部市场信息B
外部市场信息C
抽取数据的时间不同
市场部
分析程序和内容不同 分析程序1
分析结果1: 业务A市场前
景很好
企业级数据库
抽取数据的内容不同
计划部
分析程序2
1.1 数据库到数据仓库的演变
图1-3 以数据库为中心的环境发展为以数据仓库为中心的环境的过程示意图
1.1 数据库到数据仓库的演变 第一章 数据仓库概述
1.3 仓库的应用前景
• 3. 难以将数据转化成信息
•
除了数据处理效率和数据的可信度之外,“蜘蛛网”式的结
构还难以将数据转化为信息。比如,某电力公司想分析某个大客
户今年的情况和过去的3年有什么不同?大客户的情况可能包括客
图1-2 两个分析过程的差异
第一章 数据仓库概述
分析结果2: 业务A没有市
场前景
1.3 仓库的应用前景
• 两个分析的数据都来自于企业数据库,但是结论却不同,下面通过分析 两个过程的差异来寻求原因。
•
首先,市场部门和计划部门从企业数据库中抽取的数据可能不同,
比如,市场部抽取的是在大客户中对业务A的使用情况,而计划部抽取
DW&DM
第1章 数据仓库概述
DW&DM
1.l数据库到数据仓库的演变
数据库到数据仓库的演变
一、 蜘蛛网问题 数据库的发展 → 企业运营环境 → 以数据库为中心
企业级数据库
市场部 → 销售、市场策划 财务部 → 产生财务报表 人事部 → 人员变动情况 ……
蜘蛛网问题(图1-1)
1 数据分析的结果缺乏可靠性 图1-2中展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析
的是在普通客户中对业务A的使用情况,二者分析的数据存在差异。
•
其次,市场部分析的时间是2001年3月5日,而计划部分析的时间是
2001年3月25日,两个分析过程从企业数据库中抽取数据的时间不同,企
业数据库中的内容已经发生了变化,这很可能导致分析的结果不同。
•
再次,分析业务的发展趋势常常需要引入企业外部的信息,比如客
户的呼叫行为,话费情况,交费情况,咨询问题等。因此想要比
较完整的回答这个问题,实际上需要将客户多方面的数据综合成
信息。
•
在实际的数据库系统中,记录客户呼叫行为的数据库通常只
保留客户最近3个月的呼叫话单,帐务数据库可能保留客户今年的
交费情况,客户咨询数据库可能保留客户2年内的咨询信息,如图
1-4所示。每个数据库由于其数据量和业务处理的需求不同,对