第1章 数据仓库的概念与体系结构
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
填充Feed
数据展示:
加载Load
L
数据集市 Data mart 查询工具 报表生成器
抽取Extract
加载Load
数据集市 Data mart
清洗的维数据
内部的
抽取Extract E
加载Load
数据集市 Data mart 终端用户应用 建模与挖掘工具 可视化工具
加载Load
数据集市 Data mart 多个数据集市导致 数据访问复杂性 数据及元数据存储区
输出到仓库与集市 export to DW & DMs
加载Load
L
企业级 数据仓库 加载
清洗的维数据
查询工具 报表生成器 终端用户应用 建模与挖掘工具 可视化工具
内部的
抽取Extract E 抽取Extract
数据 集市 数据 集市
数据 集市
填充Feed
外部的 源数据系统 (Source Data Systems)
2015/12/17 3
1.1 数据仓库的概念、特点与组成
数据仓库的特点
面向主题 集成 相对稳定 反映历史变化
主题:指用户使用数据仓库 进行决策时所关心的重点领 域。 例如:顾客、供应商、产品 等。
2015/12/17
4
1.1 数据仓库的概念、特点与组成
数据仓库的组成
数据仓库与数据挖掘的关系
若将数据仓库( Data Warehouse )比作矿井, 那么数据挖掘( Data Mining )就是深入矿井 采矿的工作 数据挖掘是从数据仓库中找出有用信息的一种 过程与技术
2015/12/17
8
1.3 数据仓库的技术、方法与产品
OLAP技术
1.
联 机 事 务 处 理 ( On-Line Transaction Processing,OLTP ) 与 联 机 分 析 处 理 ( OnLine Analytical Processing, OLAP)的比较
2015/12/17
6
1.2 数据挖掘的概念与方法
数据挖掘的方法
直接数据挖掘 间接数据挖掘
利用可用数据建立一个模型,利用 该模型对剩余数据进行描述。例如: 分类、估值、预测等。
未选出某一变量并用模型描述,而 是在所有变量中建立某种关系。例 如:关联规则、聚类等。
2015/12/17
7
1.2 数据挖掘的概念与方法
2015/12/17
20
1.4 数据仓库系统的体系结构
逻辑型数据集市和实时数据仓库的体系结构
面向运营决策的新业务规则 接近实时地回流 抽取Extract
数据存储:
关系型的(relational) 快速的(fast)
数据展示:
查询工具 报表生成器 终端用户应用(如 CRM、SRM等) 建模与挖掘工具 可视化工具
数据仓库数据库
数据抽取工具
访问工具 数据集市(Data 数据仓库管理
数据转换包括:删除无 意义的数据、转换成统 一的数据名称和定义、 填补缺失数据等。
元数据:技术元数据与业务元数据
信息发布系统是 把数据仓库中的 元数据是描述数据仓库内 数据或其他相关 数据集市是为了特定的应用 Marts ) 数据的结构和建立方法的 的数据发送给不 数据。它为访问数据仓库 目的,从数据仓库中独立出 同的地点或用户。 提供了一个信息目录。 来的一部分数据。
2015/12/17 12
3. OLAP的分类
2015/12/17
13
1.3 数据仓库的技术、方法与产品
数据仓库实施中的三个关键环节
数据抽取 数据存储与管理
· 面对大量数据的存储与管理 ·并行处理 ·查询优化-位图索引机制 · 支持多维分析的查询模式
2015/12/17
数据表现 –数据仓库的展示界面
(1)两层架构(Generic Two-Level Architecture) (2)独立型数据集市(Independent Data Mart) ( 3 ) 依 赖 型 数 据 集 市 和 操 作 型 数 据 存 储 ( Dependent Data Mart and Operational Data Store)
(Data & Metadata Storage Area)
终端用户表示工具 (End-User Presentation Tools)
2015/12/17
19
1.4 数据仓库系统的体系结构
基于依赖型数据集市和操作型数据存储(ODS)的数据
仓库体系结构
查询结果与挖掘结果
数据存储:
抽取Extract 关系型的 (relational) 快速的(fast)
常用OLAP工具介绍
SQL Server自带的OLAP相关产品:SSAS、SSIS、SSRS
各数据仓库厂商提供的解决方案 IBM、Oracle、NCR、Microsoft、SAS等
OLAP功能 集成到SQL Server中。
2015/12/17
16
1.4 数据仓库系统的体系结构
数据仓库系统的体系结构的分类
( 4 )逻辑型数据集市和实时数据仓库 ( Logical Data Mart and Real-Time Data Warehouse)
2015/12/17
17
1.4 数据仓库系统的体系结构
两层数据仓库体系结构
查询结果与挖掘结果
抽取Extract
处理过程:
清洗(clean) 调和(reconcile) 导出(derive) 匹配(match) 合并(combine) 消除重复 (remove dups) 标准化 (standardize) 转换(transform)
清洗的维数据
填充Feed
内部的
抽取Extract E 抽取Extract
外部的 源数据系统 (Source Data Systems)
装载到仓库 Load into DW
L 终端用户表示工具 (End-User Presentation Tools)
数据集结区(ODS)与数据及元数据存储区 注:ODS与数据仓库是一个进而是相同的
数据仓库的产生
简单地说,数据仓库就是一个作为决策支持和联机分析 应用系统数据源的结构化数据环境,数据仓库要研究和 解决的问题就是从数据库中获取信息的问题。
2015/12/17
23
1.5 数据仓库的产生、发展与未来
数据仓库的发展
以报表为主 以分析为主 以预测模型为主 以营运导向为主 以实时数据仓库、自动决策应用为主
2015/12/17 10
2. OLAP技术的有关概念
2015/12/17
11
1.3 数据仓库的技术、方法与产品
3. OLAP的分类
根据存储数据的方式OLAP分为:
(1)ROLAP 将多维数据集的多维结构划分为两类表: 事实表 和维表。星型模式和雪花模式。 (2)MOLAP 以多维数据组织方式为核心来存储数据,例如多维 数组。 (3)HOLAP 4. OLAP工具
2015/12/17
9
2. OLAP技术的有关概念
(1)多维数据集 由一组维度和度量值定义的多维结构。 (2)维度 维度是OLAP技术的核心,即人们观察客观世界的角度,通 过把一个实体的一些重要属性定义为维,使用户能对不同维 属性上的数据进行比较研究。 (3)度量值 是多维数据集中的一组数值。 (4)多维分析 指对以维形式组织起来的数据(多维数据集)采取切片、 切块、钻取操作等各种分析动作,以求剖析数据,使用户能 从不同角度、不同侧面观察数据仓库中的数据。
14
1.3 数据仓库的技术、方法与产品
数据仓库实施方法论
数据仓库不是简单的数据或产品堆砌, 它是一个综合集成解决方案和系统工程。在 数据仓库的实施过程中,技术决策至关重要, 技术选择或决策错误很可能导致项目实施失 败
2015/12/17
15
1.3 数据仓库的技术、方法与产品
Байду номын сангаас
常用数据仓库产品比较
数据 集市 终端用户表示工具 (End-User Presentation Tools)
数据集结区(ODS: Operational Data Store)
数据及元数据存储区
(Data & Metadata Storage Area)
单一的ETL过程对整个企业数据仓库(EDW),依赖型数据集市从EDW加载数据
十一五 普通高等教育“十一五”国家级规划教材
数据仓库与数据挖掘
陈志泊 主编 清华大学出版社
2015/12/17
1
第1章 数据仓库的概 念与体系结构
信息化建设->历史数据->如何处理它们? 删除?备份+删除?其它?
数据仓库系统
2015/12/17 2
1.1 数据仓库的概念、特点与组成
数据仓库的概念
抽取Extract 清洗(clean) 调和(reconcile) 导出(derive) 匹配(match) 合并(combine) 消除重复 (remove dups) 标准化 (standardize) 一致维(conform dimensions) 转换(Transform) T 抽取Extract 外部的 源数据系统 (Source Data Systems) 输出到数据集市 (export to DM) 数据集结区 (Data Staging Area)
接近实时的ETL过程是面向数据仓库的,数据集市不是分离的数据库,仅是数据仓库的逻辑视图
2015/12/17
21
1.5 数据仓库的产生、发展与未来
数据仓库的产生
问题?
联机事务处理系统(业务系统)刚上线时,查询不到数据是 因为数据太少了,而几十年后查询不到有关数据是因为数据太多 了。
解决方法:
针对这一问题,人们设想专门为业务数据的统计分析建立一
抽取Extract
处理过程:
清洗(clean) 调和(reconcile) 导出(derive) 匹配(match) 合并(combine) 消除重复(remove dups) 标准化(standardize) 一致维(conform dimensions) 转换(Transform) T 实时数据仓库 转换层 加载 数据集市 数据集市 数据集市 数据集市
数据仓库就是一个面向 主题的(Subject Oriented)+ 集成的(Integrate)+ 相对稳定的(Non-Volatile)+ 反映历史变化的(Time Variant) 数据集合,通常用于辅助决策支持(DDS)。
注:数据仓库不是一个产品、一种语言、一个项目、一个模型, 而是一个 数据库环境。
唯一的、企业级的 数据仓库
数据及元数据存储区
(Data & Metadata Storage Area)
终端用户表示工具 (End-User Presentation Tools)
2015/12/17
18
1.4 数据仓库系统的体系结构
基于独立数据集市的数据仓库体系结构
查询结果与挖掘结果
处理过程:
个数据中心,它的数据从联机事务处理系统中来、从异构的外部 数据源来、或从脱机的历史业务数据中来,这个数据中心也是一 个联机系统,它专门为分析统计和决策支持应用服务,通过它可 获取决策支持和联机分析应用所需要的一切数据。这个数据中心 就叫做数据仓库。
2015/12/17 22
1.5 数据仓库的产生、发展与未来
信息发布系统
包括:安全与权限的管理、数据更新的跟踪、 数据质量的检查、元数据的管理与更新等。
5
2015/12/17
1.2 数据挖掘的概念与方法
数据挖掘的概念
数据挖掘 (Data Mining) ,就是从大量数据中获 取有效的、新颖的、潜在有用的、最终可理解 的模式的过程。简单的说,数据挖掘就是从大 量数据中提取或“挖掘”知识,又被称为数据 库 中 的 知 识 发 现 (Knowledge Discovery in Database, KDD) 。
抽取Extract
数据展示:
加载Load
L 数据仓库 Data Warehouse
清洗的维数据
填充Feed
查询工具 报表生成器 终端用户应用 建模与挖掘工具 可视化工具
内部的
抽取Extract
E 抽取Extract 外部的 源数据系统 (Source Data Systems) 输出到仓库 (export to DW) T 数据集结区 (Data Staging Area)
填充Feed(ODS提供获得当前数据的选项)
数据展示:
填充Feed
处理过程:
抽取Extract 清洗(clean) 调和(reconcile) 导出(derive) 匹配(match) 合并(combine) 消除重复 (remove dups) 标准化 (standardize) 一致维(conform dimensions) 转换(Transform) T