第3章 数据仓库系统的设计与开发
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.2.4利用星形图进行数据仓库的逻辑模型设计
关于数据仓库的聚合模型 数据的分割处理 星形图中的维度表简介 常用维度的设计模式
3.3.4利用星形图进行数据仓库的ຫໍສະໝຸດ Baidu辑模型设计
事实表及其特征 事实表的类型与设计 粒度的选择与设计步骤 关于数据仓库的聚合模型与数据的分割处理
广告
区域
雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度 表进行了规范化处理。
3.2.4利用星形图进行数据仓库的逻辑模型设计
确定主题的属性组
主题名 公共键码
商品 商品号
属性组
基本信息:商品号、商品名、类型和颜色等 采购信息:商品号、供应商号、供应价、供应日期 和供应量等 库存信息:商品号、库房号、库存量和日期等 基本信息:销售单号、销售地址等 销售信息:客户号、商品号、销售价、销售量和销 售时间等
星形图中的维度表简介
常用维度的设计模式
3.2.5数据仓库的物理模型设计
物理模型设计的主要工作 物理存储结构设计的原则 数据仓库索引设计的特殊性 存储优化与存储策略
第3章 目 录
1 数据仓库系统的设计与开发概述 基于SQL2005的数据仓库数据库设计
2
3 4
使用SQL2005建立多维数据模型 小结
2
3 4
使用SQL2005建立多维数据模型 小结
小结
建立一个数据仓库系统通常需要经历收集与分析业务需求、建立数据 仓库的概念和逻辑模型、对数据仓库作物理设计、定义数据源、选择 数据仓库技术与平台、数据的ETL处理、选择数据分析与数据展示软 件、数据仓库的更新设计等步骤。
数据仓库应用系统的开发包括两个主要部分,一是数据仓库数据库的
包括以下步骤:
分析组织的业务状况及数据源结构
组织需求调研,收集业务需求 采用信息包图法进行数据仓库的概念模型设计 利用星形图进行数据仓库的逻辑模型设计 数据仓库的物理模型设计
3.2.1分析组织的业务状况及数据源结构
以SQL Server 2005实例数据库Adventure Works DW中所描述
点(8000),括号中的数字同样分别指出各类别的数量;类似地,
可以确定产品维、客户维、广告维等的详细类别。 (3)指标和事实:确定用于进行分析的数值化信息,包括实际销售
额、计划销售额和计划完成率。
3.2.3采用信息包图法进行概念模型设计
销售分析的信息包图 信息包: 销售分析 维度
类别
日期维
年度(5) 季度(20) 月(60)
3.2.3采用信息包图法进行概念模型设计
工作: 确定系统边界:决策类型、需要的信息、原始信息
确定主题域及其内容:主题域的公共键码、联系、属性组
确定维度:如时间维、销售位置维、产品维、组别维等 确定类别:相应维的详细类别 确定指标和事实:用于进行分析的数值化信息
3.2.3采用信息包图法进行概念模型设计
数据仓库与数据挖掘
第3章 数据仓库系统的设计与开发
通过对数据仓库的概念、体系结 构与存储结构、ETL过程等内容了 解以后,如何建立数据仓库系统 呢?
教师:郭荣熙
第3章 目 录
1 数据仓库系统的设计与开发概述 基于SQL2005的数据仓库数据库设计
2
3 4
使用SQL2005建立多维数据模型 小结
3.1数据仓库系统的设计与开发
收集和分析业务需求步骤 建立数据模型和数据仓库的物理设计 定义数据源 选择数据仓库技术和平台 从操作型数据库中抽取、清洗及转换数据到数据仓库
选择访问和报表工具,选择数据库连接软件,选择数据分析和数据
展示软件 更新数据仓库
3.1.2数据仓库系统的生命周期
数据仓库系统的开发与设计是一个动态的反馈和循环过程。 一个数据仓库系统包括: 数据仓库数据库 数据分析应用系统
区域维
国家(10) 省州(100) 城市(500)
产品维
产品类别(500)
客户维
年龄分组(7)
广告维 (待用)
广告费分组(2)
产品名称(9000) 收入分组(8) 信用组(2)
日(1800) 销售点(8000)
指标和事实:实际销售额、计划销售额、计划完成率
3.2.3采用信息包图法进行概念模型设计
设计基于主题域的概念模型
3.3使用SQL Server 2005建立多维数据模型
创建一个新的数据仓库分析项目 定义数据源 定义数据源视图 定义多维数据集
部署“销售分析示例”项目
浏览已部署的多维数据集 提高多维数据集的可用性和易用性
第3章 目 录
1 数据仓库系统的设计与开发概述 基于SQL2005的数据仓库数据库设计
3.3使用SQL Server 2005建立多维数据模型
SQL Server 2005示例数据仓库环境的配置与使用 基于SQL Server 2005示例数据库的多维数据模型的建立与应用。 在SQL Server 2005数据库环境中安装数据仓库组件、示例和工具 利用示例数据仓库(AdventureWorks DW)环境及帮助系统学习
信息包图的建立
信息包:
维度 类别
指标和事实
空白信息包图样式
3.3.3采用信息包图法进行概念模型设计
〖例〗试画出销售分析的信息包图。
解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标 与事实: (1)维度:包括日期维、区域维、产品维、客户维、广告维(待用) 等。 (2)类别:确定各维的详细类别,如:日期维包括年(5)、季度 (20)、月(60)、日(1800),括号中的数字分别指出各类别的 数量;区域维包括国家(10)、省州(100)、城市(500)、销售
作用Function
数据抽取 数据整合 从企业各业务数据中 获取有用信息,实现 与业务流程的统一
OLAP 数据挖掘
自定义报表 数据展现 对分析结果提供类型 多样、美观且适合不 同需求的图表和报告
商业智能应用BI
为已有数据建立模 型,分析并找出数 据的内在关系
3.2基于SQL Server的数据仓库数据库设计
供应商主题
供应商
顾客主题
供应商 ID
顾客 相关 信息
有关信息
顾客ID
商品主题
商品ID
商品信息 商品
3.2.4利用星形图进行数据仓库的逻辑模型设计
根据分析需求与信息包图制作星形图
客户
时间 销售分析 产品
广告
区域
3.2.4利用星形图进行数据仓库的逻辑模型设计
根据分析需求与信息包图制作雪花图
客户 时间 销售分析 产品 产品类 别
3.1.2数据仓库系统的生命周期
体系 结构 设计
设
析
逻 模 辑 型
概念
模型
计
分
据 数 元 与 库 据 数
规范与需求分析
数据仓库 系统的 生命周期
维 护
数据的ETL处理
用户
评
反 价与
馈
中间 件开
实 施
发
系 统
数据
护
装 安
应用
维
填充
统
与
系
测
上线
试
与调
系统
试
3.1.3建立数据仓库系统的两种思维模式
自顶向下(Top-down) 将数据通过ETL汇集到数据仓库中,然后再把数据通过复制的方 式存入各个数据集市中。 自底向上(Bottom-Up) 通过ETL将数据汇集到数据集市中,再将数据汇集到数据仓库中。
逻辑模型设计
由关系模型转为存储模型 常用方法:关系表(通用数据库物理设计法) 关键任务:物理数据库表及其存储结构设计
物理模型设计
第3章 目 录
1 数据仓库系统的设计与开发概述 基于SQL2005的数据仓库数据库设计
2
3 4
使用SQL2005建立多维数据模型 小结
3.2基于SQL Server的数据仓库数据库设计
开发与设计,用于数据仓库的数据;二是数据分析应用系统的开发。 可使用信息包图法、运用信息包图法进行概念模型设计;利用星型图
进行数据仓库的逻辑模型设计。
3.1.4数据仓库数据库的设计步骤
面向用户的需求 业务 需求
收集、分析和确认
详细的技术细节
有反复的逐步设计过程
概念模型设计
常用方法:信息包图法 关键任务:分析和理解数据仓库中的主题
将需求模型转为关系模型 常用方法:星形图法 关键任务:事实表与维度表的设计,包括事实、 粒度、聚合与分割、维度等问题的确定
销售
销售单号
客户
客户号
3.2.4利用星形图进行数据仓库的逻辑模型设计
事实表及其特征 度量是客户发生事件或动作的事实记录,如客户打电话,可能选择 的度量有通话时长、通话次数和通话费用等。客户购买商品,可能选择 的度量有购买的次数、购买商品的金额和购买商品的数量等。 事实表则是在星型模型或雪花模型中用来记录业务事实,并作相应
3.2.3采用信息包图法进行概念模型设计
面向用户的需求
细 化 层 次 更详细的 技术细节
信息包图
概念模型
逻辑模型
星型、雪花模型
物理模型
物理数据模型
3.2.3采用信息包图法进行概念模型设计
信息包图法简介 信息包图:是数据仓库的数据模型的第一层或最高层。由于大多数 商务数据是多维的,但传统的数据模型表示三维以上的数据有一定 困难。而信息包图简化了这一过程并且允许用户设计多维信息包并 与开发者和其他用户建立联系。这种模型集中在用户对信息包的需 要,信息包提供了分析人员思维模式的可视化表示。
SQL Server 2005介绍 集成了三个服务。 SQL Server 2005的数据仓库架构
3.2基于SQL Server的数据仓库数据库设计
MS SQL Server 2005的数据仓库架构
SQL Server Business Intelligence Development Studio 服务Service 集成(SSIS) 分析(SSAS) 报表(SSRS)
Adventure Works Cycles公司的用户需求为例。 公司概况 业务系统流程介绍 对数据源结构的分析与理解
3.2.2组织需求调研,收集业务需求
坚持数据驱动+用户(需求)驱动的设计理体念,因此需要充分了解用
户的需求,进而对需求进行分析。
关于用户需求的调研(确定主题域)
对用户需求调研结果的分析(确定度量指标和维度)
指标统计的表。
事实表的特征有: 记录数量情况
维度表情况
3.2.4利用星形图进行数据仓库的逻辑模型设计
粒度的选择与设计步骤 根据需求和系统运行情况确定粒度: 粒度的不同选择导致逻辑模型的差异 粒度的不同选择导致数据存储容量的差异 粒度的设计步骤:
粗略估计数据量
确定粒度的级别 粒度设计实例:P66
建立一个数据仓库系统的参考步骤 数据仓库系统的生命周期
创建数据仓库系统的两种思维模式
数据仓库数据库的设计步骤
3.1.1建立一个数据仓库系统的参考步骤
数据仓库系统的建立是一个复杂而漫长的过程。涉及到: 源数据库系统 数据仓库对应的数据库系统
数据分析与报表工具
……
3.1.1建立一个数据仓库系统的参考步骤