数据仓库培训案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
➢ 其它导出数据:……
2.6 数据仓库的设计
❖ 逻辑模型设计 – 数据分割
✓ 数据的分割是指把逻辑上是统一整体的数据分割成较小的、可以 独立管理的数据单元进行存储(关系),以便于重构、重组和恢复 ,以提高创建索引和顺序扫描的效率。 ✓ 选择数据分割的因素有:
▪ 数据量的大小 ▪ 数据分析处理的对象(主题) ▪ 简单易行的数据分割标准 ▪ 数据粒度的划分策略 ✓ 通常采用‘时间’属性作为数据分割的依据 ✓ 数据分割技术类似于数据库中的数据分片技术,其目的是为了提 高数据仓库的性能。
❖ 物理模型设计
在逻辑模型设计基础上确定数据的存储结构、确定索 引策略、确定存储分配及数据存放位置等与物理有关的 内容,物理模型设计的具体方法与数据库设计中的大致 相似。其目的是为了提高数据仓库系统的访问性能。常 用的一些技术有:
▪ 合并表 ▪ 建立数据序列 ▪ 引入冗余 ▪ 表的物理分割 ▪ 生成导出数据 ▪ 建立广义索引
page3
调整后的存储组织
page4
2.6 数据仓库的设计
❖ 物理模型设计 – 引入冗余
✓ 粒度的划分将直接影响到数据仓库中的数据量以及所适合的查询 类型,粒度划分是否适当是影响数据仓库性能的一个重要方面。
2.6 数据仓库的设计
➢ 商品固有信息: ✓ 商品表(商品号,商品名,类型,颜色,…)/* 细节数据 */
➢ 商品采购信息: ✓ 采购表1(商品号,供应商号,供应日期,供应价,…)/* 细节数据 */ ✓ 采购表2(商品号,时间段1,采购总量,…)/* 综合数据 */ ✓ …… ✓ 采购表n(商品号,时间段n,采购总量,…)
2.6 数据仓库的设计
❖ 物理模型设计 – 合并表
✓ 在常见的一些分析处理操作中,可能需要执行多表 连接操作。为了节省I/O开销,可以把这些表中的记 录混合存放在一起,以减低表的连接操作的代价。 这样的技术我们称为 合并表。
✓ 合并表技术与传统关系数据库中的集簇(Clustering) 技术类似。
数据仓库
(三)
2.6 数据仓库的设计
➢ 数据仓库设计大致有如下几个步骤:
▪ 明确主题 ▪ 概念设计 ▪ 技术准备 ▪ 逻辑设计 ▪ 物理设计 ▪ 数据仓库生成 ▪ 数据仓库的运行与维护
数据仓库生成 物理模型设计 逻辑模型设计 概念模型设计
2.6 数据仓库的设计
针对每一个选定的当前实施的主题
数据仓库运行与维护
2.6 数据仓库的设计
❖ 逻辑模型设计 – 定义数据来源及其抽取规则
✓ 定义数据仓库中数据的来源,以及数据的抽取规则,例如:
主题名 商品 商品 商品
……
属性名 商品号 商品名
类别
数据源系统 库存子系统 库存子系统 采购子系统
源表名 商品 商品 商品
源属性名 商品号 商品名 类别
……
……
……
……
2.6 数据仓库的设计
2.6 数据仓库的设计
❖ 概念模型设计 ➢ 确定系统边界 ➢ 确定主要的主题及其内容 ➢ OLAP设计
➢ 确定系统边界 ✓ 要做的决策类型有哪些? ✓ 决策者感兴趣的是什么问题? ✓ 这些问题需要什么样的信息? ✓ 要得到这些信息需要包含哪些数据源?
2.6 数据仓库的设计
➢ 确定主要的主题 ✓ 即明确数据仓库的分析对象,然后对每个主题的内 容进行较详细的描述,包括:
固有信息:顾客号,姓名,性别,年龄,文化程度,住址 ,电话等
购物信息:顾客号,商品号,售价,购买日期,购买量等
顾客
供应商号 顾客号
2.6 数据仓库的设计
供应商固有 信息
供应商
顾客固有信息
顾客
日期 顾客号 供应商号 日期
供应商品信息
顾客购物信息
商品采购信息
商品销售信 息
商品号
Leabharlann Baidu
商品
日期
商品固有信息
商品库存信 息
2.6 数据仓库的设计
❖ 物理模型设计 – 建立数据序列
✓ 按照数据的处理顺序调整数据的物理存放位置,以 减少减少系统的磁盘I/O的开销。
1
8
6
7
3
5
4
2
page1
page2
page3
page4
2.6 数据仓库的设计
❖ 物理模型设计 – 建立数据序列
1 2 3 4 5 6
page1
7 8
page2
✓ 在设计过程中需要考虑数据仓库中数据粒度的划分原则,即数据 单元的详细程度和级别。
▪ 数据越详细,粒度越小,级别就越低 ▪ 数据综合度越高,粒度越大,级别就越高。
✓ 一般将数据划分为:详细数据、轻度总结、高度总结三种粒度, 或者采用更多级的粒度划分方法。例如:
▪ 根据时间跨度进行的统计有:天,周,月,季度,年 ▪ 对于不适合进行统计的属性值,可以采样获取数据
▪ 确定主题及其属性信息 ▪ 描述每个属性的取值情况
– 固定不变的 – 半固定的 – 经常变化的 ▪ 确定主题的公共码键 ▪ 主题间的关系:主题间联系及其属性
✓ 在确定上述内容后,就可以用传统的实体联系模型 (E-R模型)来表示数据仓库的概念数据模型。例 如:
2.6 数据仓库的设计
商品号 商品
主题 名
公共 码键
属性信息
固有信息:商品号,商品名,类别,颜色等 采购信息:商品号,供应商号,供应价,供应日期,供应 量等 销售信息:商品号,顾客号,售价,销售日期,销售量等 库存信息:商品号,库房号,库存量,日期等
供应商
固有信息:供应商号,供应商名,地址,电话,供应商类 型等
供应商品信息:供应商号,商品号,供应价,供应日期, 供应量等
➢ 商品销售信息: ✓ 销售表1(商品号,顾客号,销售日期,售价,销售量,…)/* 细节数据 */ ✓ 销售表2(商品号,时间段1,销售总量,…)/* 综合数据 */ ✓ …… ✓ 销售表n(商品号,时间段n,销售总量,…)
➢ 商品库存信息: ✓ 库存表1(商品号,库房号,库存量,日期,…)/* 细节数据 */ ✓ 库存表2(商品号,库房号,库存量,星期,…)/* 样本数据 */ ✓ …… ✓ 库存表n(商品号,库房号,库存量,年份,…)
商品、顾客和供应商之间的E-R图
2.6 数据仓库的设计
❖ 逻辑模型设计
➢ 将E-R图转换成关系数据库的二维表 ➢ 定义数据源和数据抽取规则
➢ 在逻辑模型的设计过程中,需要考虑以下一些问题: ✓ 适当的粒度划分 ✓ 合理的数据分割策略 ✓ 定义合适的数据来源等
2.6 数据仓库的设计
❖ 逻辑模型设计 – 粒度划分
相关文档
最新文档