数据仓概述及设计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
概念:数据周期、简要记录
数据仓库的建模
供应商 vendor_id Vendor data Vendor data Vendor data
客户 cust_id Cust data Cust data Cust data
订单
order_id Order data Order data
Vendor id Nonkey data
操作数据
外部数据
问题
投资效益的时间? 建设中心数据模型的必要性和可能性? 初始费用 ?
企业数据仓库
数据集市
数据集市
用自底向上的方法构建数据仓库
– 建立部门数据集市 限制在一个主题区域 快速投资收益 区域自治 – 设计的可伸缩性强 对相关部门的应用容易复制 对每个数据集市需要数据重构 存在一定的冗余及不一直性
– 逐步扩展到企业数据仓库 (EDW) 把建造EDW作为一个长期的目标
操作数据 (全局) &
外部数据
操作数据 (局部)
操作数据 (局部)
数据集市
数据集市
存在的问题:
数据集市的数据都是可用的吗? 能生成数据模型吗?
企业数据仓库
数据仓库的开发过程
数据模型的内容
表达数据模型的最好数据
将数据模型变为数据仓库要做的主要工作
❖
作业标准记得牢,驾轻就熟除烦恼。2020年10月16日星期 五1时20分24秒 13:20: 2416 October 2020
❖
好的事情马上就会到来,一切都是最 好的安 排。下Fra Baidu bibliotek午1时20分24秒 下午1时20分13:20:2420.10.16
❖
一马当先,全员举绩,梅开二度,业 绩保底 。20.10.1620.10.1613: 2013:20:2413: 20:24Oct-20
❖
牢记安全之责,善谋安全之策,力务 安全之 实。2020年10月16日 星期五1时20分 24秒Fr iday, October 16, 2020
❖
相信相信得力量。20.10.162020年10月 16日星 期五1时20分24秒20.10.16
谢谢大家!
cust id Nonkey data
order id Nonkey data
product id Nonkey data
发货 order_id Order data Order data Order data
产品 Product id Product data Product data Product data
D数据a仓ta库
Wa概念r、e设h计o及应u用se
报告人:曹顺良
提纲
1.为什么要建立数据仓库 2. 数据仓库的概念及特性 3. 数据仓库的结构 4. 数据仓库的设计 5. 数据仓库的开发过程 6. 数据仓库的典型应用
事务处理环境不适宜DSS应用的原因
❖ 事务处理和分析处理的性能特性不同 操作型处理对数据的存取操作频率高而每次操作处理的 时间短; 在分析处理环境中,某个DSS应用程序可能需要连续几 个小时,从而消耗大量的系统资源。
❖
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.1613:20:2413:20Oct-2016-Oct-20
❖
加强交通建设管理,确保工程建设质 量。13: 20:2413:20:2413:20F riday, October 16, 2020
❖
安全在于心细,事故出在麻痹。20.10.1620.10.1613: 20:2413:20:24Octob er 16, 2020
❖
踏实肯干,努力奋斗。2020年10月16日下午1时20分 20.10.1620.10.16
❖
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月16日星期 五下午1时20分 24秒13:20:2420.10.16
❖
严格把控质量关,让生产更加有保障 。2020年10月 下午1时 20分20.10.1613:20October 16, 2020
❖ 数据集成问题 ❖ 数据动态集成问题 ❖ 历史数据问题 ❖ 数据的综合问题
抽取程序
❖ 用抽取程序能将数据从高性能联机事务处理方式中转移出 来,在需要总体分析数据时就与联机事务处理性能不发生 冲突。
❖ 用抽取程序能将数据从联机事务处理范围内移出时,数据 的控制方式就发生了转变。
蜘蛛网问题
体系结构设计环境的层次
数据建模的十条戒律
①必须回答紧迫的问题; ②必须有正确的事实表; ③将有正确的维表,描述必须按最终用户的业务术语
表达; ④必须理解数据仓库所影响的公司过程或影响数据仓
库的公司过程; ⑤对于事实表,应该有正确的“粒度”; ⑥根据需要存储正确长度的公司历史数据; ⑦以一种对于公司有意义的方式来集成所有必要的数
数据仓库体系结构
数据分析、DM
OLTP 数据源
生产
财务
数据仓库
数据集市
航线 分析
总量 分析
终端用户
结算
外部 InfoPump 数据的映射规则、模型
市场 分析
终端用户
。。(。元数据管理)
数据? 采集及整合
数据? 展现及决策
数据仓库项目流程管理及系统性能管理和监控
从操作型的现存系统到数据仓库中数据 转换工作的难点
据; ⑧创建必要的总结表; ⑨创建必要的索引; ⑩能够加载数据仓库数据库并使它以一种适宜的方式
可用。
用自顶向下的方法构建数据仓库
– 建造企业数据仓库 建设中心数据模型 一次性的完成数据的重构工作 最小化数据冗余度和不一致性 存储详细的历史数据
– 从企业数据仓库中建造数据集市 得到大部分的集成数据 直接依赖于数据仓库的可用性
操作层
原子/数据 仓库层
部门层
个体层
数据仓库的概念
数据仓库的特性
数据仓库的结构
高度综合级
轻度综合级 数据集市
当前细节级
早期细节级
元数据
操作型转换
数据仓库设计中的几个重要概念
典型的元数据包括:
数据仓库设计中的几个重要概念 (续)
企业数据模型到数据仓库数据模型的转换
数据模型的规范化/反规范化
在接口中需完成的工作
数据仓库开发成功的关键
数据仓库的应用
Have Any Questions?
CSLIANG@8848.NET
❖
树立质量法制观念、提高全员质量意 识。20.10.1620.10.16Friday, October 16, 2020
❖
人生得意须尽欢,莫使金樽空对月。13:20:2413:20: 2413:2010/16/2020 1:20:24 PM