第1章数据仓库的概念与体系结构知识讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多个数据集市导致 数据访问复杂性
终端用户应用 建模与挖掘工具 可视化工具
源数据系统 (Source Data Systems)
数据集结区 (Data Staging Area)
数据及元数据存储区
(Data & Metadata Storage Area)
终端用户表示工具 (End-User Presentation Tools)
终端用户表示工具 (End-User Presentation Tools)
接近实时的ETL过程是面向数据仓库的,数据集市不是分离的数据库,仅是数据仓库的逻辑视图
2020/8/14
数据仓库与数据挖掘
16
1.5 数据仓库的产生、发展与未来
数据仓库的产生
联机事务处理系统(业务系统)刚上线时,查询不到 数据是因为数据太少了,而几十年后查询不到有关数 据是因为数据太多了。针对这一问题,人们设想专门 为业务数据的统计分析建立一个数据中心,它的数据 从联机事务处理系统中来、从异构的外部数据源来、 或从脱机的历史业务数据中来,这个数据中心也是一 个联机系统,它专门为分析统计和决策支持应用服务, 通过它可获取决策支持和联机分析应用所需要的一切 数据。这个数据中心就叫做数据仓库。简单地说,数 据仓库就是一个作为决策支持和联机分析应用系统数 据源的结构化数据环境,数据仓库要研究和解决的问 题就是从数据库中获取信息的问题。
数据仓库与数据挖掘
第1章 数据仓库 的概念与体系结构
谢红侠
2020/8/14
1
1.1 数据仓库的概念、特点与组成
数据仓库的概念
数据仓库就是一个面向主题的(Subject Oriented ) 、 集 成 的 ( Integrate ) 、 相 对稳定的(Non-Volatile)、反映历史变 化(Time Variant)的数据集合,通常用 于辅助决策支持(DDS)
2020/8/14
数据仓库与数据挖掘
2
1.1 数据仓库的概念、特点与组成
数据仓库的特点:
面向主题; 集成的; 相对稳定的; 反映历史变化。
2020/8/14
数据仓库与数据挖掘
3
1.2 数据挖掘的概念与方法
数据挖掘的概念
数据挖掘(Data Mining),就是从大量数 据中获取有效的、新颖的、潜在有用的、 最终可理解的模式的非平凡过程,简单的 说,数据挖掘就是从大量数据中提取或 “挖掘”知识,又被称为数据库中的知识 发 现 (Knowledge Discovery in Database, KDD)
OLAP工具
2020/8/14
数据仓库与数据挖掘
8
1.3 数据仓库的技术、方法与产品
数据仓库实施中的三个关键环节
数据抽取; 数据存储与管理 数据表现
2020/8/14
数据仓库与数据挖掘
9
1.3 数据仓库的技术、方法与产品
数据仓库实施方法论
数据仓库不是简单的数据或产品堆砌, 它是一个综合集成解决方案和系统工 程。在数据仓库的实施过程中,技术 决策至关重要,技术选择或决策错误 很可能导致项目实施失败
2020/8/14
数据仓库与数据挖掘
14
1.4 数据仓库系统的体系结构
基于依赖型数据集市和操作型数据存储(ODS)的数据
仓库体系结构
查询结果与挖掘结果
内部的 外部的
抽取Extract 抽取Extract 清洗的维数据 抽取Extract
E 抽取Extract
数据存储:
关系型的 (relational)
快速的(fast)
处理过程:
清洗(clean) 调和(reconcile) 导出(derive) 匹配(match) 合并(combine) 消除重复 (remove dups) 标准化 (standardize) 一致维(conform dimensions) 转换(Transform)
T
输出到仓库与集市 export to DW & DMs
2020/8/14
数据仓库与数据挖掘
10
1.3 数据仓库的技术、方法与产品
常用数据仓库产品比较
常用OLAP工具介绍 ; 各数据仓库厂商提供的解决方案
IBM、Oracle、NCR、Microsoft、 SAS等
2020/8/14
数据仓库与数据挖掘
11
1.4 数据仓库系统的体系结构
数据仓库系统的体系结构的分类
数据挖掘是从数据仓库中找出有用信息 的一种过程与技术
2020/8/14
数据仓库与数据挖掘
7
1.3 数据仓库的技术、方法与产品
联机事务处理(OLTP)与联机分析 处理(OLAP)的比较;
OLAP技术的有关概念 :多维数据集、 维度、度量值和多维分析;
OLAP根据其存储数据的方式可分为 三类:ROLAP、MOLAP、HOLAP
装载到仓库 Load into DW L
实时数据仓库 转换层 数据集市加载 数据集市 数据集市 数据集市
数据展示:
填充Feed
查询工具 报表生成器 终端用户应用(如 CRM、SRM等) 建模与挖掘工具 可视化工具
源数据系统 (Source Data Systems)
数据集结区(ODS)与数据及元数据存储区 注:ODS与数据仓库是一个进而是相同的
填充Feed(ODS提供获得当前数据的选项)
加载Load L
企业级 数据仓库
填充Feed
加载
数据 数据 集市 集市
数据 数据 集市 集市
填充Feed
数据展示:
查询工具 报表生成器 终端用户应用 建模与挖掘工具 可视化工具
源数据系统 (Source Data Systems)
数据集结区(ODS: Operational Data Store)
2020/8/14
数据仓库与数据挖掘
5
1.2 数据挖掘的概念与方法
数据挖掘的方法:
直接数据挖掘 间接数据挖掘。
2020/8/14
数据仓库与数据挖掘
6
1.2 数据挖掘的概念与方法
数据仓库与数据挖掘的关系
若将数据仓库(Data Warehouse)比 作矿井,那么数据挖掘(Data Mining) 就是深入矿井采矿的工作
处理过程:
清洗(clean) 调和(reconcile) 导出(derive) 匹配(match) 合并(combine) 消除重复 (remove dups) 标准化 (standardize)
加载Load L
数据仓库 Data
Warehouse
填充Feed
数据展示:
查询工具 报表生成器 终端用户应用 建模与挖掘工具 可视化工具
E 抽取Extract
转换(Transform) T
输出到数据集市 (export to DM)
加载Load L
加载Load
数据集市 Data mart
数据集市 Data mart
查询结果与挖掘结果
填充Feed 数据展示:
查询工具 报表生成器
加载Load
数据集市 Data mart
加载Load
数据集市 Data mart
(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。
2020/8/14
数据仓库与数据挖掘
12
1.4 数据仓库系统的体系结构
两层数据仓库体系结构
查询结果与挖掘结果
内部的 外部的
抽取Extract 抽取Extract 清洗的维数据 抽取Extract
逻辑型数据集市和实时数据仓库的体系结构
接近实时地回流
面向运营决策的新业务规则
抽取Extract
抽取Extract
清洗的维数据
内部的
抽取Extract E
外部的
抽取Extract
数据存储:
关系型的(relational) 快速的(fast)
处理过程:
清洗(clean) 调和(reconcile) 导出(derive) 匹配(match) 合并(combine) 消除重复(remove dups) 标准化(standardize) 一致维(conform dimensions) 转换(Transform) T
( 1 ) 两 层 架 构 ( Generic Two-Level Architecture)。
( 2 ) 独 立 型 数 据 集 市 ( Independent Data Mart)。
(3)依赖型数据集市和操作型数据存储 ( Dependent Data Mart and Operational Data Store)。
E 抽取Extract
转换(transform)
输出到仓库 (export to DW)
T
唯一的、企业级的 数据仓库
源数据系统 (Source Data Systems)
数据集结区 (Data Staging Area)
数据及元数据存储区
(Data & Metadata Storage Area)
终端用户表示工具 (End-User Presentation Tools)
在数据管理方面,未来的发展将使数据库厂商明确推出数据 仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐 驱。在这一方面,带有决策支持扩展的并行关系数据库将最 具发展潜力。
在数据表现方面,数理统计的算法和功能将普遍集成到联机 分析产品中,并与Internet/Web技术紧密结合。按行业应用 特征细化的数据仓库用户前端软件将成为产品作为数据仓库 解决方案的一部分。数据仓库实现过程的方法论将更加普及, 将成为数据库设计的一个明确分支,成为管理信息系统设计 的必备
2020/8/14
数据仓库与数据挖掘
19
Байду номын сангаас
2020/8/14
数据仓库与数据挖掘
17
1.5 数据仓库的产生、发展与未来
数据仓库的发展
以报表为主 以分析为主 以预测模型为主 以营运导向为主 以实时数据仓库、自动决策应用为主
2020/8/14
数据仓库与数据挖掘
18
1.5 数据仓库的产生、发展与未来
数据仓库的未来
在数据抽取方面,未来的技术发展将集中在系统集成化方面。 它将互连、转换、复制、调度、监控纳入标准化的统一管理, 以适应数据仓库本身或数据源可能的变化,使系统更便于管 理和维护。
数据及元数据存储区
(Data & Metadata Storage Area)
终端用户表示工具 (End-User Presentation Tools)
单一的ETL过程对整个企业数据仓库(EDW),依赖型数据集市从EDW加载数据
2020/8/14
数据仓库与数据挖掘
15
1.4 数据仓库系统的体系结构
2020/8/14
数据仓库与数据挖掘
13
1.4 数据仓库系统的体系结构
基于独立数据集市的数据仓库体系结构
内部的 外部的
抽取Extract 抽取Extract 清洗的维数据 抽取Extract
处理过程:
清洗(clean) 调和(reconcile) 导出(derive) 匹配(match) 合并(combine) 消除重复 (remove dups) 标准化 (standardize) 一致维(conform dimensions)