数据仓库基础.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库Hale Waihona Puke Baidu计(一) ——事实表
• 维表
维度表是存储描述事实表中事实数据特性的表,每个维表都是独立于其 它维表的,并且包含了事实特性的层次结构信息。
• 索引
与在任何关系数据库中一样,索引对提高数据仓库性能和处理多维数据 集性能的起着重大作用,是数据仓库中不可或缺的部分。
数据仓库组织形式(一)
• 星型模型
星型模型是由单个事实数据表和一些维度表组成的构架模型。在这种模 型中每个维度表均联接到事实数据表上。
化出来的、能够真正为用户所理解的、并真实反映数据维特性的信息, 进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软 件技术。
OLAP的特征
• OLAP的核心——指标、维
• OLAP的目标——多维分析
• OLAP的特点
灵活、动态 多角度、多层次的视角 快速
OLAP的基本功能
• 事实表设计
不要在事实数据表中进行过度的汇总,以保证在必要时可以进行所需粒 度的数据访问。
数据仓库设计原则(二)
• 数据存储方式
在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数 据表中,条件是这些事实数据表必须具有相同的结构。
• 索引
在关键字段上创建索引,以提高处理多维数据集的性能。
• 特殊要求
根据所选的OLAP引擎特殊需要,确保数据诸如完整性等的特殊要求。
• 增量更新
必须考虑数据增量和更新的策略,以保证多维数据集中有所需的数据。
数据仓库基本元素(一)
• 关系型数据库
关系数据库是建立数据仓库的基础引擎平台,它为数据仓库提供临时存 储、清理和转换传入的数据,容纳和管理数据仓库中的大量数据,并支 持数据仓库的功能。
数据仓库设计原则(一)
• 模型构架
尽量使用星型架构,使用雪花架构的目的是使事实表第一级的维表数量 达到最小。
• 设计方法
将常识规范化方法应用于维度表设计。例如,不相关的数据不应组合到 单一维度表中,而且在多个维度表中数据不应重复。
• 维表设计
设计维表应包含需要分析的有关事实的有意义信息,例如产品的颜色和 大小。
(Data Mining) 知识发现
集成各系统的历史 通过数学模型发现 灵活、动态、快速 形成知识库指导决策、再分析 数据,建立面向主 隐藏的、潜在的规 的多维分析、随机 商业智能技术体系( BI —— Business Intelligence ) 题的企业数据中心 律,以辅助决策 查询、即席报表
• DM的定义
数据挖掘(Data Mining)是从数据集中识别出有效的、新颖的、潜在 有用的以及最终可理解模式的高级处理过程。也就是说,从大量的、 不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、 人们事先不知道的、但又是潜在有用的信息和知识的过程。
• DM的特点
涉及数据库、统计分析、人工智能多种技术 预测和验证功能 特征和规律描述
数据仓库基础
FEnet Royalstone
主题 • • • • 商业智能技术 数据仓库与多维模型 设计数据仓库 设计多维模型
商业智能的体系
在线分析处理技术
数据仓库技术
数据挖掘技术
(OLAP:Online ( Data Warehousing) Analytical Processing) 数据整合 数据分析 更加全面、深入的分析
主题 • • • • 商业智能技术 数据仓库与多维模型 数据仓库设计 多维模型设计
数据仓库与多维模型概述
• 多维模型与数据仓库
多维模型通过组织和汇总数据仓库中的数据而为分析查询提供一种多维 的表现方式。 数据仓库是多维数据集的数据基础,其结构的设计会影响多维数模型的 设计和建立的难易程度。
主题 • • • • 商业智能技术 数据仓库与多维模型 数据仓库设计 多维模型设计
• 事实表设计
每个事实数据表都应该由两个部分组成,一个由多个部分组成的索引和 一些由这些索引所描述的数据。
索引部分
索引部分包含着与描述事实数据特征的维表相关联的外键信息。
数据部分
数据部分是事实表中真正要存放的事实数据。
数据仓库设计(一) ——事实表
事实表示例: 前五列为索引部分,后三列是事实数据部分 列 time _id swbm _id jjxz _id szsm _id hy_id Yzsj Djs Jms …… 描述 时间维表 Dim_time 的外键 税务机关维表 Dim_swbm 的外键 经济性质维表 Dim_jjxz 的外键 税种维表 Dim_szsm 的外键 行业维表 Dim_hy 的外键 包含本月应征税款的列 包含抵缴数的列 包含免数/退库数的列 ……
数据仓库定义
?
• 数据仓库的概念
什么是数据仓库?
数据仓库就是面向主题的、集成的、不同时间的、稳定的数据集 合,用以支持经营管理中的决策制定过程。
数据仓库的特点
• 面向主题
• 集成性—企业数据框架
• 历史性、稳定性
数据仓库与业务数据库的比较
什么是联机分析处理(OLAP)?
• OLAP的定义
OLAP是使分析人员、管理人员能够从多种角度对从原始数据中转
税务 机关 维表
时间 维表
行业 维表
事 实 表
经济 性质 维表
税种 维表
数据仓库组织形式(二)
• 雪花型模型
雪花型架构比星型模型增加了次要维表,有一个或多个维表是联接到其 它维表上,而非事实数据表上。
机构 维表
时间 维表
事 实 表
行业 维表
地区维
地市 维表 省份 维表
数据仓库设计(一)——事实表
• 商业语义层的定义
• 上钻和下钻(Roll up or Drill down)
• 切片和切块(Slice and Dice) • 旋转(Pivoting) • 强大的复杂计算能力 • 时间智能
• 丰富的数据展现方式
OLAP功能示意
按机构钻 取
时 间 维
济 南
行业维 青 岛
地 区 维
数据挖掘技术(Data Mining)
• 数据源
数据源是数据仓库用于分析的数据来源,是建立数据仓库时必须聚集和 合并的不同来源的数据。
数据仓库基本元素(二)
• 事实表
事实表是用于存放经过汇总的历史信息,也就是事实数据的表,是星型 架构或雪花型架构的中心。每个数据仓库或数据集市都包括一个或多个 事实表。事实表一般不包含描述性信息,具有可以聚合的特点。