数据仓库简介-PPT课件
合集下载
01数据仓库概述.ppt
9
分析决策人员的挑战
组织内部
横向共享信息 数据的重构 个人授权 服务和质量管理
组织之间
合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链
市场
竞争对手 市场分割 实时的市场行情 全球化
10
数据可信性
数据没有同一时间基准
例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论
销售 客户 索赔
产品 帐户
政策
25
面向主题的数据组织
主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析
对象的数据的一个完整、一致的描述。 采用面向事务进行数据组织,其特点为:
充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很
长。
13
从数据到信息
例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、
信托,而这些应用并未集成。 没有足够的历史数据:
贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的系统
操作型系统,OLTP
下订单 处理呼叫 装货 开发货单 收取现金 预定座位
将数据写入数据库
►信息型系统
▪ 给我销售量最好的产品名单 ▪ 告诉我出问题的地区 ▪ 告诉我为什么(向下钻取) ▪ 让我看看其他的数据(横向
钻取) ▪ 显示最大利润 ▪ 当一个地区的销售低于目标
分析决策人员的挑战
组织内部
横向共享信息 数据的重构 个人授权 服务和质量管理
组织之间
合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链
市场
竞争对手 市场分割 实时的市场行情 全球化
10
数据可信性
数据没有同一时间基准
例如:一个企业的两个部门向管理者呈送报表 部门A,于星期天傍晚抽取了分析所需的数据,结论
销售 客户 索赔
产品 帐户
政策
25
面向主题的数据组织
主题:宏观分析领域所涉及的分析对象 面向主题的数据组织方式:在较高的层次上对分析
对象的数据的一个完整、一致的描述。 采用面向事务进行数据组织,其特点为:
充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应
定位数据 + 获得数据 + 集成报告,完成任务所需时间较长 每份报告各自需求不同,因此每份报告所需要的时间都很
长。
13
从数据到信息
例如:“今年的帐户情况与前五年比较” 涉及大量应用:储蓄应用、贷款、即期汇票管理、
信托,而这些应用并未集成。 没有足够的历史数据:
贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的系统
操作型系统,OLTP
下订单 处理呼叫 装货 开发货单 收取现金 预定座位
将数据写入数据库
►信息型系统
▪ 给我销售量最好的产品名单 ▪ 告诉我出问题的地区 ▪ 告诉我为什么(向下钻取) ▪ 让我看看其他的数据(横向
钻取) ▪ 显示最大利润 ▪ 当一个地区的销售低于目标
数据仓库技术PPT课件( 25页)
像外行一样思考,像专家一样实践
2019/5/31
杭州斯凯网络科技有限公司
かなで たけお
金出 武雄
24
•
5、世上最美好的事是:我已经长大,父母还未老;我有能力报答,父母仍然健康。
•
6、没什么可怕的,大家都一样,在试探中不断前行。
•
7、时间就像一张网,你撒在哪里,你的收获就在哪里。纽扣第一颗就扣错了,可你扣到最后一颗才发现。有些事一开始就是错的,可只有到最后才不得不承认。
8
数据仓库的架构类型
2019/5/31
杭州斯凯网络科技有限公司
9
Oracle数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
10
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
11
GreenPlum数据仓库的架构
2019/5/31
杭州斯凯网络科技有限公司
12
2019/5/31
杭州斯凯网络科技有限公司
20
软件物理架构比较
软件物理架构主要特征区别就是行存储和列存 储。这个也是曾经很多厂商津津乐道的地方,根 据需求的不同,2种方式可以灵活采用。
大部分DB软件都是采用行存储,而列存储 的特征在于高效的单列值压缩,在选择列比较少 的时候需要io要求很低,速度很快,不过行存储 的DB目前在压缩效率上也在迅速提升,大部分需 求还是选择行数据进行观察,行存储也更加便于 表的按记录拆分进行并行化。
MapReduce 概念
MapReduce是一种编程模型(并不是google自己开发的 编程工具),用于大规模数据集(大于1TB)的并行运算。 概念"Map(映射)"和"Reduce(化简)",和他们的主要 思想,都是从函数式编程语言里借来的,还有从矢量编程 语言里借来的特性。他极大地方便了编程人员在不会分布 式并行编程的情况下,将自己的程序运行在分布式系统上。
数据仓库基础PPT课件
主题
• 商业智能技术 • 数据仓库与多维模型 • 设计数据仓库 • 设计多维模型
第1页/共40页
商业智能的体系
数据仓库技术
在线分析处理技术
数据挖掘技术
( Data Warehousing)An(alyOtiLcAaPl P:rOocnelisnseing (Data Mining)
数据整合
) 更加全面数、据深分入析的分析
• 父子维 父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称 为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。
第23页/共40页
数据仓库设计(二) ——维表
• 普通维
普通维中的层次是根据维表的列而定义的,所以维表中列的定义会直接影响到维度中层次的定义。 设计普通维度的维表必须充分考虑维度的扩展性。
• 单元级别权限: 单元级别的安全权限,可以限定多维数据集中特定单元访问。
• 其它级别权限: 不同OLAP引擎所提供的特属功能的权限。例如,钻取权限等
Jms
包含免数/退库数的列
……
……
第21页/共40页
数据仓库设计(一) ——事实表
• 设计事实表应注意的问题
• 事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的 任何数据。
• 事实表中的数据应该是经过适当聚合的数据 • 事实表中数据的粒度应该是一致的 • 事实表的设计应该考虑增量数据更新的需要,例如是否需要增加时间戳字段等。
知识发现
集 数 题成据的商各,企业系建业统立数智的面据能历向中技史主心术形体成知系识(灵的查库活多B询指I、维—、导动分—即决态 析B席策、、u报s、快随in表再速机es分s析Int通隐e律ll过藏ig,数的e以n学、c辅e模潜助)型在决发的策现规
• 商业智能技术 • 数据仓库与多维模型 • 设计数据仓库 • 设计多维模型
第1页/共40页
商业智能的体系
数据仓库技术
在线分析处理技术
数据挖掘技术
( Data Warehousing)An(alyOtiLcAaPl P:rOocnelisnseing (Data Mining)
数据整合
) 更加全面数、据深分入析的分析
• 父子维 父子维是基于两个维表列的维度,由维表中的两列来共同定义各个成员的隶属关系。一列称 为成员键列,标识每个成员;另一列称为父键列,标识每个成员的父代。
第23页/共40页
数据仓库设计(二) ——维表
• 普通维
普通维中的层次是根据维表的列而定义的,所以维表中列的定义会直接影响到维度中层次的定义。 设计普通维度的维表必须充分考虑维度的扩展性。
• 单元级别权限: 单元级别的安全权限,可以限定多维数据集中特定单元访问。
• 其它级别权限: 不同OLAP引擎所提供的特属功能的权限。例如,钻取权限等
Jms
包含免数/退库数的列
……
……
第21页/共40页
数据仓库设计(一) ——事实表
• 设计事实表应注意的问题
• 事实表中一般不应包含描述性信息,也不应包含除事实表与维表中间对应的关联字段之外的 任何数据。
• 事实表中的数据应该是经过适当聚合的数据 • 事实表中数据的粒度应该是一致的 • 事实表的设计应该考虑增量数据更新的需要,例如是否需要增加时间戳字段等。
知识发现
集 数 题成据的商各,企业系建业统立数智的面据能历向中技史主心术形体成知系识(灵的查库活多B询指I、维—、导动分—即决态 析B席策、、u报s、快随in表再速机es分s析Int通隐e律ll过藏ig,数的e以n学、c辅e模潜助)型在决发的策现规
数据仓库概述PPT(共 57张)
决策支持系统:需要花数小时甚至更长时 间的处理、需要遍历数据库中的大部分数据, 进行复杂的计算,需要消耗大量的系统资源。
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
16
细节的
操1作.型1.数3据两者数据处理模式的分析差型数别据
综合的,或提炼的
当前数据
历史数据
更新的
不可更新,只读的
生命周期符合SDLC (软件开发生命周期)
完全不同的生命周期
对性能要求高 一个时刻操作一个单元 事务驱动 面向应用 一次操作数据量小,计算简单 支持日常操作
29
1.2 数据仓库的基本概念
数据仓库就是一个面向主题的、集成的、不可更新 的、随时间不断变化的数据集合,通常用于企业的 决策支持。
30
1.2.1 面向主题
主题:是一个抽象的概念,是在较高层次上将企业 信息系统中的数据综合、归类并进行分析利用的抽 象。在逻辑上,它对应于企业中某一宏观分析领域 所涉及的分析必须把分析数 据从事务处理环境中提取出来,按照决策支持系统处 理的需要进行重新组织,建立单独的分析型处理环境。 数据仓库正是为了构建这种新的分析型处理环境而 出现的一种数据存储和组织技术。
27
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
第1讲 数据仓库概述
1
数据仓库概述 1.1 数据仓库产生的原因 1.2 数据仓库的基本概念 1.3 数据仓库的体系结构
2
数据仓库概述
1.1 数据仓库产生的原因 1.1.1 操作型数据处理 1.1.2 分析型数据处理 1.1.3 两种数据处理模式的差异 1.1.4 数据库系统的局限性
对性能要求宽松 一个时刻操作一个集合 分析驱动 面向分析 一次操作数据量大,计算复杂 支持管理需求
数据仓库的概念与体系结构PPT课件
– 围绕一些主题,如顾客、供应商、产品等 – 关注决策者的数据建模与分析,而不是集中于
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
组织机构的日常操作和事务处理。 – 排除对于决策无用的数据,提供特定主题的简
明视图。
可编辑课件PPT
7
数据仓库关键特征二——数据集成
• 一个数据仓库是通过集成多个异种数据源 来构造的。
• 关系数据库,一般文件,联机事务处理记录
• 衡量联机事务处理系统的一个重要性能指标是系 统性能,具体体现为实时响应时间(Response Time)
• 特点
– OLTP支持大量并发用户定期添加和修改数据
– 反映随时变化的单位状态,但不保存其历史记录
– 具有复杂的结构。
可编辑课件PPT
33
OLTP系统 VS. OLAP系统比较 (1)
2
什么是数据仓库?
• 数据仓库(Data Warehouse,简写为DW或DWH)
• 数据仓库的定义很多,但却很难有一种严格的定义 – 数据仓库是一个数据库,它与公司的操作数据库分开 维护。 – 允许将各种应用系统集成在一起,为统一的历史数据 分析提供坚实的平台,对信息处理提供支持
• 数据仓库区别于其他数据存储系统 – “数据仓库是一个面向主题的、集成的、随时间而变 化的、不容易丢失的数据集合,支持管理部门的决策 过程.”—W. H. Inmon
13
数据仓库数据库
– 数据仓库系统中的数据库是整个数据仓库系统 的核心,是数据信息存放的地方,对数据提供 存取和检索支持。相对于传统数据库来说,它 突出的特点是对海量数据的支持和快速的检索 技术。
可编辑课件PPT
14
数据抽取工具
– 数据抽取工具把数据从各种各样的存储环境中 提取出来,进行必要的转化、整理,再存放到 数据仓库中。对各种不同的数据存储方式的访 问能力是数据抽取工具的关键,数据转换通常 包括:
数据仓库专题讲义PPT公开课(43页)
OLAP的多维数据概念
数据单元。多维数据集的取值称为数据单元。 当在多维数据集的每个维都选中一个维成员以
后,这些维成员的组合就惟一确定了观察变量 的值。
OLAP多维数据分析
1.切片和切块(Slice and Dice)
在多维数据结构中,按二维进行切片,按三维进行切块,可 得到所需要的数据。如在“城市、产品、时间”三维立 方体中进行切块和切片,可得到各城市、各产品的销售情 况。
数据的存储与管理
数据的存储与管理是整个数据仓库系统的核心。 针对现有各业务系统的数据,进行抽取、清理, 并有效集成,按照主题进行组织。数据仓库按照 数据的覆盖范围可以分为企业级数据仓库和部门 级数据仓库(通常称为数据集市)。
OLAP服务器
OLAP服务器对分析需要的数据进行有效集成, 按多维模型予以组织,以便进行多角度、多层 次的分析,并发现趋势。
数据仓库四个特点-相对稳定
操作型数据库中的数据通常实时更新,数据 根据需要及时发生变化。数据仓库的数据主 要供企业决策分析之用,所涉及的数据操作 主要是数据查询,一旦某个数据进入数据仓 库以后,一般情况下将被长期保留,也就是 数据仓库中一般有大量的查询操作,但修改 和删除操作很少,通常只需要定期的加载、 刷新。
2.钻取(Drill)
钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/ 上卷(Roll-up)操作, 钻取的深度与维所划分的层次相 对应。
数据仓库四个特点-反映历史变化
数据仓库本质
如果说传统数据库系统的要求是快速、准确、安全、 可靠地将数据存进数据库中的话,那么数据仓库的 要求就是能够准确、安全、可靠地从数据库中取出 数据,经过加工转换成有规律信息之后,再供管理 人员进行分析使用。
《数据仓库技术》课件
数据质量参差不齐
数据来源多样,数据质 量难以保证,需要进行
数据清洗和校验。
数据分析需求多变
不同部门和业务场景对 数据分析的需求各不相 同,需要灵活地调整数 据仓库架构和查询方式
。
应对策略
采用分布式存储和计算 技术,提高数据存储和 处理能力;建立数据质 量管理体系,确保数据 质量;提供灵活的数据 仓库架构和查询方式, 满足多变的分析需求。
大数据时代的挑战与机遇
挑战
随着大数据时代的来临,数据量呈爆 炸式增长,如何高效地存储、处理和 分析这些数据成为数据仓库面临的挑 战。
机遇
大数据时代为数据仓库技术的发展提 供了广阔的空间,通过技术创新和优 化,数据仓库能够更好地应对大数据 的挑战,为企业提供更有价值的数据 分析服务。
数据仓库技术的未来发展
云端部署
AI与数据仓库的结合
随着云计算技术的成熟,数据仓库将 逐渐向云端迁移,以提高可扩展性和 灵活性。
人工智能技术的不断发展将为数据仓 库带来更多智能化功能,如自动分类 、预测等。
实时分析
随着对数据实时性的需求增加,数据 仓库将加强实时分析功能,提高数据 处理速度。
数据仓库与其他技术的结合
数据仓库与大数据技术的结合
OLAP技术
多维数据分析
OLAP支持多维数据分析,这意味着用户 可以从多个角度和维度(如时间、地点、
产品类别等)来分析数据。
A OLAP技术概述
OLAP是一种用于分析大量数据的工 具和技术,它允许用户通过多维数 据分析来深入了解数据的不同方面 。
B
C
D
可视化工具
OLAP系统通常提供各种可视化工具,如 仪表盘、报表、图表等,以帮助用户更好 地理解数据和分析结果。
数据仓库概述(PPT 90页)
6 数据管理员 是负责数据导入时管理数据质量的专业人员,还检阅提取日志,发现其中数据
提取的错误和源于业务系统的错误。
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据
DW&DM
2000-2-3 2000-2-4 2000-2-5
…..
2/3/2000 2/4/2000 2/5/2000
…..
2000/2/3 2000/2/4 2000/2/5
…..
图1-9 数据格式的不一致
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据
2.数据处理的效率很低
• 在错综复杂的体系中,不同级别的数据库可能使用不同类型的数 据库系统,对于有巨型数据量的企业级数据库可能使用IBM DB2, 对于中小型数据库可能使用SQL Server。各种数据库的开发工具 和开发环境不同,抽取程序应用的技术不同,因而难以集成。
•
如果一个大型企业的决策者需要一份关于公司整体运营情况
可能和今天是不同的。可见,动用大量的人力,物力和时间才能
完成的报表不仅实效性很差,数据处理的效率也很低。
DW&DM
以数据库为中心 以数据仓库为中心
应用A 应用B 应用C
操作应用A 操作应用B 操作应用C
数据库
生产环境 数据库
以数据库为中心
生产环境
数据库
以数据仓库为中心
分析应用A 分析应用B 分析应用C
型系统的划分如图1-4所示。
数据仓库PPT
结论: 结论:
空间数据仓库是一个多种异构数据源在单个 站点以统一的模式组织的存储, 站点以统一的模式组织的存储,它的根本目 的是服务于决策支持, 的是服务于决策支持,是空间决策支持系统 SDSS)的核心。 (SDSS)的核心。
1.5 1.5 数据仓库与数据库的比较
数据仓库(DW) 数据仓库(DW) 分析型数据环境 面向空间分析(主题), 面向空间分析(主题), 支持SDSS 支持SDSS 集成的综合数据 历史数据(5-10年) 历史数据( 10年 定期加载,加载后极少更新 定期加载, 数据驱动的开发周期 CLDS) (CLDS) 数据库(DB) 数据库(DB) 操作型数据环境 面向业务, 面向业务,日常事务处理
高级数据库系统
基于WEB的空间数据库系统 的空间数据库系统 基于
90年代 90年代 到现在
空间数据分库和数据挖掘 空间属性一体化数据库系统) (空间属性一体化数据库系统)
基于XML的数据系统 的数据系统 基于
2000年 2000年 之后
第一代综合信息系统
空间数据库和联机处理 OLAP 空间数据挖掘SDM和知 空间数据挖掘 和知 识发现 KDD
集成的
具有关联机制, 具有关联机制,可为辅助决策集成多个不 同部门不同系统的大量数据异构空间。 同部门不同系统的大量数据异构空间。
稳定性
进入空间数据仓库的数据是不能或极少更 新的。 新的。
不同时间的
空间数据仓库内包含了大量历史数据, 空间数据仓库内包含了大量历史数据,时 限为5 10年 主要用于进行时间趋势分析。 限为5—10年,主要用于进行时间趋势分析。
1.2 空间数据仓库的概念
• 数据仓库的创始人 数据仓库的创始人W·H·Inmon曾经给数据 曾经给数据 仓库( 仓库(DW)下过一个定义:数据仓库是数 )下过一个定义: 据仓库向空间维的扩展, 据仓库向空间维的扩展,它是一个支持决 策过程的、面向主题的、集成的、稳定的、 策过程的、面向主题的、集成的、稳定的、 不同时间的空间数据的集合。 不同时间的空间数据的集合。
【精品】数据仓库及应用(数据仓库、数据模型、商务智能)PPT课件
Implement Time
> TB Months to years
< TB Months
Data Mart
Data Mart
Control: A department can completely control the data and processing that occurs inside a data mart. Cost: The cost of storage and processing is less, because the data mart’s machine is smaller than DW’s Customization: The data mart’s data is customized to suit the peculiar needs of the department.
Administration
Enterprise Data Warehouse
Enterprise data warehouses are funded on a corporate basis. Enterprise data warehouse covers the entire business (corporation), incorporating data from all operational systems. Information is extracted from the operational environment, cleansed, and transformed into a central, integrated enterprise-wide data warehouse environment, so that all the departments and other internal organizations of the corporation can benefit from a consistent, integrated source of decision support information.
> TB Months to years
< TB Months
Data Mart
Data Mart
Control: A department can completely control the data and processing that occurs inside a data mart. Cost: The cost of storage and processing is less, because the data mart’s machine is smaller than DW’s Customization: The data mart’s data is customized to suit the peculiar needs of the department.
Administration
Enterprise Data Warehouse
Enterprise data warehouses are funded on a corporate basis. Enterprise data warehouse covers the entire business (corporation), incorporating data from all operational systems. Information is extracted from the operational environment, cleansed, and transformed into a central, integrated enterprise-wide data warehouse environment, so that all the departments and other internal organizations of the corporation can benefit from a consistent, integrated source of decision support information.
数据仓库与数据挖掘课件ppt
要求有大量的历史数据。
结论:
第 一 章 数 据 仓 库 的 基 本 概 念
在事务处理型应用环境中直接构建分析
决策型应用是不可行的。
于是:
面向分析决策型应用而组织和存储数据 的数据仓库技术应运而生。
时间:20世纪80年代初
第 一 章 数 据 仓 库 的 基 本 概 念
人物:W.H.Inmon 定义: 数据仓库是面向主题的、集成的、
数据预处理过程;
汇总数据的巨大价值。
1-4-2 星型模式
第 一 章 数 据 仓 库 的 基 本 概 念
星型模式是事实表与维表通过星型方式连接而 成,如下图:
产品维表
产品码(PK)
时间维表
时间码(PK)
产品大类
产品细类 产品名称
事 实 表
日期
时间码(FK) 产品码(FK)(PK) 地区码(FK) 销 售量 销 售额 销售成本 月份 季度 年度
实视图的好处:
第 一 章 数 据 仓 库 的 基 本 概 念
通过建立实视图可以提高系统的响应速度; 由于数据源到主题数据映射关系的复杂性,采用普
通视图的方式不可行。
实视图的特点:
时间是数据仓库中几乎所有数据的属性之一; 数据在装于数据仓库后,基本不发生变化; 实视图不是数据源中数据的简单拷贝,而是经历了
年度
地区码
国 家 地 区 城 市
多维数据模型的优势:
第 一 章 数 据 仓 库 的 基 本 概 念
多维数据模型是已知标准化的结构,即包含多 个多维数据模式,每一个多维数据模式都对应一张 事实表和多张维表。 这种多维结构能支持最终用户不可预知的操作, 原因在于多维数据模型的各个维是逻辑等价的。
数据仓库简介-PPT课件
9
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方式 ❖ 1.9 小结
10
1.1 决策支持系统
❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
程只操作少量数据。 反映当前情况。
通常只作为一个整体管理。
系统性能至关重要,因为可能有大 量用户同时访问。
数据仓库(决策支持)数据
面向主题:数据服务于某个特定的商务主题,例如 客户信息等。它是非规范化数据(OLAP)。
对源数据进行摘要,或经过复杂的统计计算。例如 一个月中交易收入和支出的总和。
结构是动态的,可根据需要增减。 非易变(数据一旦插入就不能改变)。 分析驱动。 一般以记录集存取,所以一个过程能处理大批数据,
44
1.5 多维模型
❖ 限制
▪ 限制数据:从立方体分离部分数据来选出分析字 段。在关系代数中称为选择、投影
▪ 切片、切块操作
❖ 聚合
▪ 将多个子多维数据集合并成更大的多维数据集。
▪ 特性
• 多维,也称作立方体(或超立方体) • 提供一种便于使用的查询数据的机制。
37
1.5 多维模型
38
1.5 多维模型
❖ 度量值(Measure)
▪ 度量值是一组值,是客户发生事件或动作的事实 记录。
▪ 如:
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3
为什么学本课程(Why)
❖ BI
▪ 定义(IBM):商业智能是一系列由系统和 技术支持的 以简化信息收集和分析的策略集合,它应该包括企业需 要收集什么信息、谁需要去访问这些数据、如何把原始 数据转化为最终战略性决策的智能、客户服务和供应链 管理。
▪ 包括:数据仓库(DW)、联机分析(OLAP)、 数据挖掘(DM)
❖数据仓库的引入
14
1.2 数据仓库
❖ 数据仓库的概念和特点
▪ 概念:
• 数据仓库(DataWarehouse,DW)是一个面向主题的、集 成的、不可更新的、随时间不断变化的数据集合,它用 于支持企业或组织的决策分析处理。
▪ 特点:
• 面向主题 – 主题是在较高层次上将企业信息系统中的数据综合、 归类和分析利用的抽象概念。每个主题对应一个分 析领域。 – 典型主题:客户、产品、销售、利润、保险等 – 每个主题域都是以一组相关的表来具体实现,通过 公共关键字建立联系
▪ 工具:IBM、Oracle、Microsoft、SAS、CA等
4
为什么学本课程(Why)
❖ 市场需求(岗位)
▪ 数据仓库工程师
• 岗位要求1、岗位要求2、岗位要求3
▪ 数据仓库开发工程师
• 岗位要求1
▪ 数据仓库BI架构师
• 岗位要求
▪ 数据仓库高级开发工程师
• 岗位要求
▪ 数据仓库测试工程师
15
1.2 数据仓库
16
1.2 数据仓库
17
1.2 数据仓库
各子系统建立数据库情况
子系统
数据库名称
数据字段
销售子系统
顾客 销售
顾客号,姓名,性别,年龄,文化程度,地址, 电话 员工号,顾客号,商品号,数量,单价,日期
采购子系统
订单 订单细则
订单号,供应商号,总金额,日期 订单号,商品号,类别,单价,数量
11
1.2 数据仓库
❖数据仓库的引入
了解各销售员的月销售情况
商品名称 生产厂家 销售时间 销售地 销售员 销售量
空调
美的
2009.3.12 北京
001
2
空调
格力
2009.5.3 长沙
002
3
空调
美的
2009.5.10 北京
001
2
空调
格力
2009.6.3 长沙
002
3
空调
美的
2009.7.10 北京
数据的浏览、分析等方法和技术。
❖ 相关课程
▪ 数据库、数据挖掘、决策支持系统设计与开发
2
为什么学本课程(Why)
❖ 信息技术在商业中发展
▪ 管理信息系统(MIS) ▪ 企业资源计划系统(ERP)、客户关系管理(CRM) ▪ 商业智能系统(BI)
❖ 发展过程中存在的问题
▪ 数据可信性 ▪ 生产率问题 ▪ 无法将数据转化为信息
OLAP分析技术框架 ❖ 从微观角度掌握具体技术细节 ❖ 主动、认真做好实验及课程设计
7
教材: 《数据仓库设计:现代原理与方法》
(美)Matteo Golfareli著
8
参考教材:
1) (美)JOY MUNDY.数据仓库工具箱--面向SQL SERVER 2019和MICROSOFT商业智能工具集. 北京:清华大学出 版社,2019 2)于宗民,刘义宁, 祁国辉.数据仓库项目管理实践.北京:人 民邮电出版社2019 • 朱德利. SQL Server 2019数据挖掘与商业智能完全解决 方案.北京:电子工业出版社,2019. • technet.microsoft/zh-cn/default.aspx 3) msdn.microsoft/zh-cn/sqlserver/default.aspx 4) dwway/html/news.html
• 岗位要求
▪ 数据仓库咨询师
• 岗位要求
5
本课程的主要内容(What)
❖ 数据仓库与OLAP的相关理论知识 ❖ 数据仓库设计 ❖ 数据准备、转换、装载(SSIS) ❖ 多维数据集操作及分析(SSAS) ❖ 多维数据分析报表(SSRS)
6
如何学好本课程(How)
❖ 重视相关概念和原理的理解 ❖ 从全局把握上把握数据仓库创建、管理及
供应商
供应商号,供应商名,地址,电话
库存管理子系 统
领料单 进料单 库存
领料单号,领料人,商品号,数量,日期 进料单号,订单号,进料人,收料人,日期 商品号,库房号,库存量,日期
人事管理子系 统
库房 员工 部门
库房号,仓库管理员,地点,库存商品描述
员工号,姓名,性别,年龄,文化程度,部门 号 部门号,部门名称,部门主管,电话
001
2
空调
格力
2009.8.3 长沙
002
3
空调
美的
2009.10.10 北京
001
2
空调
格力
2009.11.3 长沙
002
3
电视机
TCL
2009.10.3 长沙
003
3
了解格力空调在长沙的月销售情况 了解各品牌空调在各城市的月销售情况
12
1.2 数据仓库
❖数据仓库的引入
13
1. 2 数据仓库
18
1.2 数据仓库
面向主题的数据组织
主题 商品
供应商 顾客
信息类 商品固有信息 商品采购信息 商品销售信息 商品库存信息 供应商固有信息 供应商品信息 顾客固有信息 顾客购物信息
数据字段
商品号, 商品名, 类别, 颜色 商品号, 供应商号, 供应价, 供应日期, 供应量 商品号, 顾客号, 售价, 销售日期, 销售量 商品号, 库房号, 库存量, 日期 供应商号, 供应商名, 地址, 电话 供应商号, 商品号, 供应价, 供应日期, 供应量 顾客号, 顾客名, 性别, 年龄, 文化程度, 住址, 电话 顾客号, 商品号, 售价, 购买日期, 购买量
9
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
数据仓库技术
谭义红:15873193369; QQ: 2647724 yhtan09@163
课程介绍
❖ 性质
▪ 是信科专业的主要专业课程、是决策支持系统方向的重 要课程
❖ 目的
▪ 理解数据仓库及OLAP的相关概念 ▪ 了解数据仓库及OLAP的发展趋势和应用领域 ▪ 掌握数据仓库的设计、构建,数据的准备、转换、装载,
为什么学本课程(Why)
❖ BI
▪ 定义(IBM):商业智能是一系列由系统和 技术支持的 以简化信息收集和分析的策略集合,它应该包括企业需 要收集什么信息、谁需要去访问这些数据、如何把原始 数据转化为最终战略性决策的智能、客户服务和供应链 管理。
▪ 包括:数据仓库(DW)、联机分析(OLAP)、 数据挖掘(DM)
❖数据仓库的引入
14
1.2 数据仓库
❖ 数据仓库的概念和特点
▪ 概念:
• 数据仓库(DataWarehouse,DW)是一个面向主题的、集 成的、不可更新的、随时间不断变化的数据集合,它用 于支持企业或组织的决策分析处理。
▪ 特点:
• 面向主题 – 主题是在较高层次上将企业信息系统中的数据综合、 归类和分析利用的抽象概念。每个主题对应一个分 析领域。 – 典型主题:客户、产品、销售、利润、保险等 – 每个主题域都是以一组相关的表来具体实现,通过 公共关键字建立联系
▪ 工具:IBM、Oracle、Microsoft、SAS、CA等
4
为什么学本课程(Why)
❖ 市场需求(岗位)
▪ 数据仓库工程师
• 岗位要求1、岗位要求2、岗位要求3
▪ 数据仓库开发工程师
• 岗位要求1
▪ 数据仓库BI架构师
• 岗位要求
▪ 数据仓库高级开发工程师
• 岗位要求
▪ 数据仓库测试工程师
15
1.2 数据仓库
16
1.2 数据仓库
17
1.2 数据仓库
各子系统建立数据库情况
子系统
数据库名称
数据字段
销售子系统
顾客 销售
顾客号,姓名,性别,年龄,文化程度,地址, 电话 员工号,顾客号,商品号,数量,单价,日期
采购子系统
订单 订单细则
订单号,供应商号,总金额,日期 订单号,商品号,类别,单价,数量
11
1.2 数据仓库
❖数据仓库的引入
了解各销售员的月销售情况
商品名称 生产厂家 销售时间 销售地 销售员 销售量
空调
美的
2009.3.12 北京
001
2
空调
格力
2009.5.3 长沙
002
3
空调
美的
2009.5.10 北京
001
2
空调
格力
2009.6.3 长沙
002
3
空调
美的
2009.7.10 北京
数据的浏览、分析等方法和技术。
❖ 相关课程
▪ 数据库、数据挖掘、决策支持系统设计与开发
2
为什么学本课程(Why)
❖ 信息技术在商业中发展
▪ 管理信息系统(MIS) ▪ 企业资源计划系统(ERP)、客户关系管理(CRM) ▪ 商业智能系统(BI)
❖ 发展过程中存在的问题
▪ 数据可信性 ▪ 生产率问题 ▪ 无法将数据转化为信息
OLAP分析技术框架 ❖ 从微观角度掌握具体技术细节 ❖ 主动、认真做好实验及课程设计
7
教材: 《数据仓库设计:现代原理与方法》
(美)Matteo Golfareli著
8
参考教材:
1) (美)JOY MUNDY.数据仓库工具箱--面向SQL SERVER 2019和MICROSOFT商业智能工具集. 北京:清华大学出 版社,2019 2)于宗民,刘义宁, 祁国辉.数据仓库项目管理实践.北京:人 民邮电出版社2019 • 朱德利. SQL Server 2019数据挖掘与商业智能完全解决 方案.北京:电子工业出版社,2019. • technet.microsoft/zh-cn/default.aspx 3) msdn.microsoft/zh-cn/sqlserver/default.aspx 4) dwway/html/news.html
• 岗位要求
▪ 数据仓库咨询师
• 岗位要求
5
本课程的主要内容(What)
❖ 数据仓库与OLAP的相关理论知识 ❖ 数据仓库设计 ❖ 数据准备、转换、装载(SSIS) ❖ 多维数据集操作及分析(SSAS) ❖ 多维数据分析报表(SSRS)
6
如何学好本课程(How)
❖ 重视相关概念和原理的理解 ❖ 从全局把握上把握数据仓库创建、管理及
供应商
供应商号,供应商名,地址,电话
库存管理子系 统
领料单 进料单 库存
领料单号,领料人,商品号,数量,日期 进料单号,订单号,进料人,收料人,日期 商品号,库房号,库存量,日期
人事管理子系 统
库房 员工 部门
库房号,仓库管理员,地点,库存商品描述
员工号,姓名,性别,年龄,文化程度,部门 号 部门号,部门名称,部门主管,电话
001
2
空调
格力
2009.8.3 长沙
002
3
空调
美的
2009.10.10 北京
001
2
空调
格力
2009.11.3 长沙
002
3
电视机
TCL
2009.10.3 长沙
003
3
了解格力空调在长沙的月销售情况 了解各品牌空调在各城市的月销售情况
12
1.2 数据仓库
❖数据仓库的引入
13
1. 2 数据仓库
18
1.2 数据仓库
面向主题的数据组织
主题 商品
供应商 顾客
信息类 商品固有信息 商品采购信息 商品销售信息 商品库存信息 供应商固有信息 供应商品信息 顾客固有信息 顾客购物信息
数据字段
商品号, 商品名, 类别, 颜色 商品号, 供应商号, 供应价, 供应日期, 供应量 商品号, 顾客号, 售价, 销售日期, 销售量 商品号, 库房号, 库存量, 日期 供应商号, 供应商名, 地址, 电话 供应商号, 商品号, 供应价, 供应日期, 供应量 顾客号, 顾客名, 性别, 年龄, 文化程度, 住址, 电话 顾客号, 商品号, 售价, 购买日期, 购买量
9
第1章 数据仓库与OLAP概述
❖ 1.1 决策支持系统 ❖ 1.2数据仓库 ❖ 1.3数据仓库的体系结构 ❖ 1.4 数据准备与ETL ❖ 1.5 多维模型 ❖ 1.6 元数据 ❖ 1.7 访问数据仓库 ❖ 1.8 多维数据的存储方❖决策支持系统
▪ DSS(decision support system)是可扩展交互式 IT技术和工具的集合,这些技术和工具用于处理和 分析数据以及辅助管理人员制定决策。为此,这种 系统匹配管理人员的个人资源和计算机资源,以提 高决策质量。
数据仓库技术
谭义红:15873193369; QQ: 2647724 yhtan09@163
课程介绍
❖ 性质
▪ 是信科专业的主要专业课程、是决策支持系统方向的重 要课程
❖ 目的
▪ 理解数据仓库及OLAP的相关概念 ▪ 了解数据仓库及OLAP的发展趋势和应用领域 ▪ 掌握数据仓库的设计、构建,数据的准备、转换、装载,