数据仓库系统的理论基础总复习
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
27
多维分析的基本分析动作
旋转
改变一个报告或页面显示的维的方向
耐 克 上海 阿迪 达斯 … 耐 克 北京 阿迪 达斯 … 耐 克 南京 阿 迪 达斯 … … …
1月 2月 3月 4月 5月 …
上海 1月 耐克 阿迪达斯 … 耐克 阿迪达斯 …
北京
南京
…
2月
…
28
多维分析的基本分析动作
下钻(Drill_down)
4
数据仓库的特征—1
数据仓库是面向主题的
主题是一个在较高层次上将数据归类的标准,每个主题基 本对应于一个宏观的分析领域。
业务系统 采购子系统:
订单、订单细则、供应商
数据仓库系统 商品:
商品固有信息、商品采购信息、商品 销售信息、商品库存信息
销售子系统:
顾客、销售
供应商:
供应商固有信息、供应商品信息
(时间,地点,型号)
36
两者的比较
数据管理 数据存取 适应性
维数变化 数据变化 数据量变化 适应软硬件的能力
37
完
谢谢!
38
30
多维数据库
地 区 维
时间维 产品维
31
MD-OLAP
DB
基础数据 计算结果
多维 存取
DW
多维数据库引擎
多维视图 体
32
主要技术问题
存储空间
数据压缩 空洞处理 数据语义提取
安全管理
33
ROLAP
DB
基础数据 元数据 计算结果
SQL 存取
多维 综合 引擎
多维 存取
DW RDBMS 服务器
对企业当前情 况的充分认识 和对未来发展 的预测
数据发布、 联机分析处 理和数据挖 掘
2
目录
数据仓库简介 数据仓库系统的创建 联机分析系统(OLAP)
3
数据仓库的定义
数据仓库是作为DSS服务基础的分析型数 据库,用来存放大容量的只读数据,为制 定决策提供所需的信息 数据仓库是与操作型系统相分离的、基于 标准企业模型集成的、带有时间属性的、 面向主题及不可更新的数据集合 面向主题的、集成的、稳定的、用以支持 经营管理中的决策制定过程的不同时间的 数据集合
数据单元
多维数组的一个取值
26
多维分析的基本分析动作
切片
在多维数组的某一维上选定一维成员的动作 选定多维数组的一个二维子集的动作
查询上海一年中每个月所有品牌鞋子的销售情况
切块
在多维数组的某一维上选定某一区间的维成员 的动作 选定多维数组的一个三维子集的动作
查询3月-6月所有城市所有品牌鞋子的销售情况
对数据沿某一维进行进一步深层的分析
上翻(Draw_up)
对数据沿某一维向上了解其泛化的情况
29
OLAP的实现模式
基于多维数据库的实现方式
基于多维数据库的实现方式的方式是利用多 维数组的技术存放数据仓库中的数据,这种 方式可方便用户进行分析。
基于关系数据库系统
基于关系数据库系统的方式主要是利用关系 数据库中的表来存储数据仓库中的数据,利 用关系间的连接操作得到数据仓库中的数据。
库存管理子系统:
领料单、进料单、库存、库房
顾客:
顾客固有信息、顾客购物信息
人事管理子系统:
员工、部门
5
数据仓库的特征—2
数据仓库是集成的
操作型数据与适合DSS的分析性数据差别甚大。 因此数据在进入数据仓库之前必然要经过加工 和集成 数据仓库反映的是历史数据的内容,而不是处 理联机数据,故极少更新或根本不更新的。 数据仓库中存储大量的历史数据、当前数据和 综合数据等,它们处于永远的发展变化中。
关系型 OLAP 服务器
多维视图
34
主要技术问题
速度问题 存储与索引方法
位图索引 联接索引 按列存储
物化视图
物化视图的选择、更新及创建
35
物化视图
物化视图
事先将查询的 中间结果计算 出来, 作为视图存储 在数据库中 实时对视图进 行维护更新
NULL
(地点)
(时间)
(型号)
(时间,地点) (时间,型号) (地点,型号)
23
联机分析处理(OLAP)
背景和定义 基本概念 多维分析的基本分析动作 数据仓库的实现模式
24
背景和基本概念
背景 定义
针对特定问题的联机数据访问和分析
变量
数据的实际意义
维
人们观察数据的特定角度
维的层次
维的细节程度不同的多个描述方法
25
基本概念
维成员
维的一个取值
多维数组
表示为(维1,维2,…,维n,变量)
20
主要手段
数据清洗
数据装载
全量装载
运行时间 时间间隔
增量数据抽取与装载
时间戳问题 日志
21
主要问题
模式设计上的问题
缺少成熟的数据模型 缺乏合适的数据转换工具
技术上的问题
组织上的问题
加强和业务人员的交流
对系统带来的效益的认识
22
观念上的问题
目录
数据仓库简介 数据仓库系统的创建 联机分析系统(OLAP)
数据仓库系统的理论基础和技术
东华大学计算机科学与技术学院 乐嘉锦 2012年4月
1
数据仓库系统的建设背景
计算机管理系 统的长期使用 大量的数据 (历史据) 数据分布与 多数据源难 于进行管理 数据仓库(模 式设计、数据 集成)
企业规模的不 断扩大和计算 机管理系统向 分布式方向的 发展
对企业现状的 进一步分析和 对未来发展的 预测
6
数据仓库是稳定的
数据仓库是时变的
数据仓库中的数据
实时数据—包括具体的操作数据
调整数据—经过清理的操作数据 变化数据 — 表示信息仓库中在一段时间内发生变化的 数据 导出数据—通过聚集、转换和求和生成的数据 元数据—表示数据的数据,包括目录、字典和面向用户 的部分信息
16
雪花模型
时间键 基本事实表 时间键 产品键 地域键 客户键 销售数量 价格 总额 时间键 财政年度
17
周时间
时 间 维
时间键 日期 时间键 季度
模式设计
逻辑模型
关系、元组、属性、主码、域、… 粒度
数据仓库中数据的综合程度高低的一个度量 样本数据库
物理模型
合并表、冗余、索引 分割
数据集市
决策支持工具 用户工具
OLAP 应用
数据发布
数据挖掘工具
用户界面
10
数据集市
子系统 子系统 子系统 数据抽取 数据抽取 数据集市 数据抽取 数据抽取 数据抽取 子系统 子系统
百度文库
数据再抽取与集成
全局数据仓库
11
数据仓库的设计过程
数 据 仓 库 建 模
数 据 获 取 与 集 成
DSS
构 建 数 据 仓 库
7
数据仓库中的数据组织结构
高度综合级
元 数 据
轻度综合级
当前细节级
早期细节级
8
数据仓库系统的结构
应用系统/OLTP 数据库 外部数据源
数据抽取
数据转换 数据清洗
数据复制
商业信息元 数据 中央数据仓库 操作型数据存储体
9
数据仓库系统的结构
商业信息元 数据 中央数据仓库 数据重整 操作型数据存储体
星形模型 雪花模型
15
星型模型
产品键 产品名 产品简称 所属族 客户键 客户名 客户代号 所属族 产 品 维 基本事实表 时间键 产品键 地域键 客户键 客 户 维 销售数量 价格 总额 地 区 维 时间键 时 间 维 日期 周日期 年 周末标志 地域键 地区名 地区简称 商店数
18
数据抽取
主要任务:从各种数据源获取所需要的 数据 多数据源的问题
语义不匹配的问题:本体 半结构化数据的抽取 WEB数据的抽取
多系统同步问题
蜘蛛网问题
19
数据转换
主要任务:解决数据仓库与数据源的不一致
数据模式的转换 数据类型的转换 数据格式和描述方法的转换 基于SQL的方法 通过自行开发的系统 常识性错误的发现 重复数据的发现
应 用 编 程
系 统 测 试
理 解 需 求
数据仓库
12
目录
数据仓库简介 数据仓库系统的创建 联机分析系统(OLAP)
13
创建数据仓库系统的主要步骤
模式设计 数据抽取、转换与装载(ETL) 开发数据分析与展示工具
14
模式设计
概念模型
主观与客观间的桥梁 最常用的方法是E-R图 利用关系数据库管理系统存储数据仓库中的数 据主要有两种形式: