《数据库研究与发展》PPT课件
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
OLTP系统
RDBMS Sybase
SAP/ERP
VSAM EXCEL
数据仓库/决策分析系统
高度 汇总数据
分析型CRM 业务指标分析
数据集市
数据仓库
5-10 年
轻度 汇总数据
当前 详细数据
过去 详细数据
精选ppt
22
• 数据仓库的结构
– 数据由操作型环境(综合)导入数据仓库 – 数据具有不同的细节级
精选ppt
29
• 数据仓库中的数据组织形式
– 简化直接
• 按一定的时间间隔,对数据进行提取,是操作型数据的 一个快照
精选ppt
30
• 数据仓库中的数据组织形式
– 连续
• 把新的快照追加到以前的连续数据上去
精选ppt
31
• 数据仓库的数据追加
– 数据追加
• 数据仓库的数据初装完成以后,再向数据仓库输入数据 的过程称为数据追加
– 全局事务
• 需访问其他场地数据库的事务
精选ppt
4
• 分布式数据库环境下的访问代价
– 磁盘读写 – 网络传输
• 分布式数据库的目标
– 部门组织分布,降低成本 – 数据资源共享,提高数据库的利用率
精选ppt
5
• 全局外模式
– 全局应用的用户视图,全局概念模式的子集
• 全局概念模式
– 是全局概念视图
– 存放有关用户存取权限的定义 – 存放数据完整性约束条件的定义
• 分布式数据库的基本原则
– 对用户(最终用户、程序员)来说,一个分布式系 统应该看起来完全象一个非分布式系统
精选ppt
8
• Sybase Enterprise Connect
• 数据库互联与复制解决方案
• 提供在同 / 异构数据源中进行分布事务复制、 位置透明、与应用独立的数据存取功能
模式 • 例:产品-商店-销售额
精选ppt
37
• 数据仓库的基本数据模式
Time dimension
Attributes of the time dimension
Time
time id date year quarter month week
<pk>
Sales fact
Product
TimeSales
• 早期细节级(过期数据) • 当前细节级 • 轻度综合数据级(数据集市) • 高度综合数据级
精选ppt
23
精选ppt
24
精选ppt
25
• 数据仓库中的数据组织形式
– 简单堆积 – 轮转综合
• 数据按一定的格式进行轮转的累加
– 简化直接
• 按一定的时间间隔,对数据进行提取,是操作型数据的 一个快照
• 集成
– Repliaction Server / Replication Agent (复制服务器/代理)
– Jconnect(J连接)
– Open Server/Open Client (开放式服务器/客户机)
– Omni Connect / Direct Connect
(总连接/直接连接)精选ppt
– 连续
• 把新的快照追加到以前的连续数据上去
精选ppt
26
• 数据仓库中的数据组织形式
– 简单堆积
• 每日由数据库中提取并加工的数据逐天积累堆积
精选ppt
27
• 数据仓库中的数据组织形式
– 轮转综合
• 数据按一定的格式进行轮转的累加
精选ppt
28
• 数据仓库中的数据组织形式
– 简单堆积与轮转综合的比较
• 数据库处理的两大应用
– 联机事务处理(OLTP)
• 操作型处理,为企业的特定应用服务 • 是对数据库的联机的日常操作,通常是对一个或
一组记录的查询和修改 • 人们关心的是响应时间、数据的安全性和完整性
– 决策支持系统(DSS)
• 分析型处理,用于管理人员的决策分析 • 经常需要访问大量的历史数据 • 数据仓库 + 联机分析处理 + 数据挖掘 • ( DW + OLAP + DM )→ DSS
product id make model
ProdSales
<pk>
Sales
time id product id location id customer id sales revenue units sold
<pk,fk> <pk,fk> <pk,fk> <pk,fk>
LocationSales
CustSales
Location
location id <pk> region district store
Sales measures
精选ppt
Customer
customer id <pk>
category
group
38
• 数据仓库的基本数据模式
– 雪花模式(Snowflake Schema)
– 分布性:
• 数据的分布性
• 事务的分布性
– 协调性:逻辑上整体、具整体完整性约束
Hale Waihona Puke 精选ppt3• 数据的分布性
– 分布式数据存储
• 复制
• 分片
• 复制 + 分片
– 数据的冗余
• 提高数据的可用性、并发性、减少网络传输
• 增加了数据更新的开销,副本一致性问题
• 事务的分布性
– 局部事务
• 仅访问当地数据库的事务
精选ppt
45
• 一些概念
– 变量是数据的实际意义,描述数据是什么 – 维是人们观察数据的特定角度 – 维的层次是维在不同细节程度的描述 – 维成员是维的一个取值
• 多层次维的维成员是各层次取值的组合 • 对应一个数据项,维成员是该数据项在该维中位置的描述
– 多维数组可以表示为(维1,维2,……,变量),如(地
9
总部
ASA 联机用 户
SQLRemote
ASA的远程工作组 (办事处 2)
ASA/ASE SQL Remote
复制服务器
企业数据
SQLRemote
SQLRemote
ASA的远程工作组 (办事处 1)
ASA 远程移动用户
9.2 数据仓库技术与联机 分析处理
Data Warehouse & OLAP
– 四层体系化环境
• 操作型环境——OLTP
• 全局级——数据仓库
• 部门级——局部仓库
• 个人级——个人仓库,用于启发式的分析
– 数据集市(Data Mart)
• 特定的、面向部门的小型数据仓库
• 是为满足用户特定需求而创建的数据仓库
• 是数据仓库的子集
精选ppt
33
• 数据库的体系化环境
精选ppt
• 局部内模式
– 局部数据库的物理描述
• 局部数据库:本地的局部数据精选库ppt
6
DDBMS的结构
LDB
LDBMS GDBMS
CM
网络
全局数据字典
全局数据字典
CM GDBMS LDBMS
LDB
精选ppt
CM GDBMS LDBMS
全局数据字典
LDB 7
• 全局数据字典
– 存放数据概念模式、分片模式、分布模式的定义及 各模式之间映象的定义
– 全局概念模式名、属性名、域
• 分片模式
– 定义分片片段以及全局关系到片段的映象
– 是一对多的,一个全局关系可对应多个片段,一个片段只来自全局关系
• 分布模式
– 分片的物理分配视图
• 局部概念模式
– 局部数据库中的概念模型,关于本地数据库的描述
– 如果局部数据库中还有独立应用,则应有局部外模式,提供给本地应用 使用
• 从不同的角度观察数据
• 多变的主题、多维数据
• E-R不能完全支持
• 四种分析模型(Codd)
– 绝对模型
– 解释模型
– 思考模型
– 公式模型
精选ppt
42
• 四种分析模型(Codd)
– 绝对模型
• 静态数据分析
• 只能对历史数据进行值的比较,描述基本事实
• 用户交互少
– 解释模型
• 静态数据分析
16
• 数据仓库的特点 —— 集成
精选ppt
17
• 数据仓库的特点 – 面向主题 – 集成的 – 数据不可更改
• 数据仓库的主要数据操作是查询、分析 • 不进行一般意义上的数据更新(过期数据可能被
删除) • 数据仓库强化查询、淡化并发控制和完整性保护
等技术
– 随时间变化的
精选ppt
18
• 数据仓库的特点——数据不可更改
– 验证型工具 • 多维分析工具 • 用户首先提出假设,然后利用各种工具通过反复、 递归的检索查询以验证或否定假设
– 发掘型工具 • 从大量数据中发现数据模式 • 预测趋势和行为
精选ppt
44
• 联机分析处理——OLAP
– 是针对特定问题的联机访问和分析。
– 通过对信息的很多种可能的观察形式进行快速、稳定 一致和交互性的存取,允许分析人员对数据进行深入 观察
精选ppt
19
• 数据仓库的特点 – 面向主题 – 集成的 – 数据不可更改 – 随时间变化的
• 不断增加新的数据内容 • 不断删除旧的数据内容 • 定时综合 • 数据仓库中数据表的键码都包含时间项,以标明
数据的历史时期
精选ppt
20
• 数据仓库的特点 ——随时间变化
精选ppt
21
• 数据仓库的结构
34
• 数据库的体系化环境
精选ppt
35
• 数据仓库的开发生命周期
精选ppt
36
• 数据仓库的基本数据模式
– 星型模式(Star Schema)
• 事实表(fact table),存放基本数据,相关主题的数 据主体(BCNF)
• 维(dimension),影响、分析主体数据的因素 • 量(measure),事实表中的数据属性 • 维表(dimension table),表示维的各种表 • 维是量的取值条件,维用外键表示 • 以事实表为中心,加上若干维表,组成星型数据
• 在当前多维视图的基础上找出事件发生的原因
– 思考模型
• 动态数据分析
• 多维分析
• 在决策者的参与下,找出关键变量
• 需要高级数据分析人员的介入
– 公式模型
• 动态性最高的一类
• 自动完成变量的引入工精作选ppt
43
• 数据仓库系统的工具层
– 查询工具 • 主要是对分析结果的查询 • 很少有对记录级数据的查询
精选ppt
12
• 数据仓库
– 是一个面向主题的、集成的、非易失的 (不可修改)且随时间变化的数据集合, 用来支持管理人员的决策
精选ppt
13
• 数据仓库的特点 –面向主题
• 主题是在较高层次上对数据抽象 • 面向主题的数据组织分为两步骤
– 抽取主题 – 确定每个主题所包含的数据内容 • 每个主题在数据仓库中都是由一组关系表实现的
第9章 数据库系统的研究与发 展
9.1 分布式数据库系统 Distributed Database System
DDBS
• 分布式数据库
– 逻辑上是一个统一的数据库系统
– 物理上分散在不同的场地(节点)
– 各场地通过计算机网络连接在一起
– 统一由一个分布式数据库管理系统( DDBMS ) 管理
• 特点
–集成的 – 数据不可更改 – 随时间变化的
精选ppt
14
• 数据仓库的特点 —— 面向主题
精选ppt
15
• 数据仓库的特点 – 面向主题 – 集成的
• 数据仓库的数据是从原有的分散数据库数据中抽 取来的
• 消除数据表述的不一致性(数据的清洗) • 数据的综合
– 数据不可更改 – 随时间变化的
精选ppt
区,时间,销售渠道,销售额)
– 多维数组的取值称为数据单元(单元格)
• 可以理解为交叉表的数据格
精选ppt
46
• 一些基本操作
– 在多维数组的某一维选定一个维成员的动作称
为切片。
• 舍弃一些观察角度
– 在多维数组的某一维上选定某一区间的维成员
切块
• 多个切片的叠加
– 旋转是改变一个报告或页面显示的维方向
• 以用户容易理解的角度来观察数据
精选ppt
47
• 基于多维数据库的OLAP——MOLAP
– 以多维方式组织数据(综合数据)
– 以多维方式显示(观察)数据
– 多维数据库的形式类似于交叉表,可直观地表 述一对多、多对多的关系
• 如:产品、地区、销售额
– 关系
– 多维
– 多维数据库由许多经压缩的、类似于数组的对 象构成,带有高度压缩的索引及指针结构
– 变化数据的捕获
• 时标法:加标识 • DELTA法:对更新作记录 • 前后映象法:两次快照的对比 • 日志法:利用DBMS的日志,需改进
精选ppt
32
• 数据库的体系化环境
– 是在一个企业或组织内部,由各面向应用的OLTP 数据库及各级面向主题的数据仓库所组成的完整的 数据环境
– 操作型环境、分析型环境
– 数据仓库 • 居系统的核心地位 • 是信息挖掘的基础
– 数据仓库管理系统 • 是整个系统的引擎 • 负责管理整个系统的运转
– 数据仓库工具 • 一般的查询工具、功能强大的分析工具 • 是整个系统发挥作用的关键
精选ppt
41
• 数据分析模型
– 早期
• 静态数据值的相互比较
– 需求
• 从多个不同的数据源中综合数据
• 维一般是由若干层次组成 • 把维按其层次结构表示成若干个表 • 规范化、节省存储空间 • 但需多做连接操作
• 数据仓库的解决方案
– 通用的关系数据库系统 – 专门的数据仓库服务器
精选ppt
39
• 数据仓库系统的体系结构
– 数据仓库层 – 数据仓库工具层 – 最终用户
精选ppt
40
• 数据仓库系统