第4章 数据仓库的设计

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2020/6/18
应用A DB
2020/6/18
应用B
应用C
收集应用需求
分析应用需求
构建数据库
应用编程
DB
外部数
DB

数据仓库建模
数据获取与集成 构建数据仓库 DW DSS应用编程
系统测试
系统测试
系统实施
理解需求
SDLC方法
CLDS方法
SDLC方法和CLDS方法比较
2020/6/18
二、数据仓库设计的步骤
一、概念模型的设计任务
1.界定系统边界 数据仓库面向决策分析,我们在设计数据仓库时不能得到明确的需求,但是设 计人员还是面临一些基本的方向性需求问题:要做的决策类型有哪些?决策者 感兴趣的是什么问题?这些问题需要哪些数据?这些数据要从哪些数据库系统 中获得?因此,我们可以界定系统边界,即进行任务和环境评估、了解决策者 迫切需要解决的问题及解决这些问题所需要的信息,要对现有数据库中的内容 有一个完整而清晰的认识。 2.确定主要的主题域及其内容 要确定系统所包含的主题域,然后对每个主题域进行较明确的描述,包括主题 域的公共键码、主题域之间的联系和代表主题的属性组。
2020/6/18
二、确定粒度
确定粒度是数据仓库设计过程中最重要的问题之一,因为它影响存放在数据仓库 中的数据量的大小,同时影响数据仓库所能回答的查询类型。
通过粒度的划分,决定在数据仓库中采取单一粒度还是双重粒度以及粒度划分的 级别层次。
1、数据量估计
要确定合理的数据粒度,首先要粗略估算未来数据仓库的数据量,下面是一个 简单的估算方法。 首先要确定将要建立的所有表,假设表的个数为n,对于每个表i(0<i≤n)计 算表的大小Si和表的主关键字大小Ki,然后估计每张表i在单位时间内最大记录 数Lmax和最小记录数Lmin。 数据仓库数据量=(表记录的大小+主关键字的大小)×单位时间内记录的数 量×存储时间×冗余因子 则数据仓库的粗略数据量在如下范围: [Si+Ki)T),Si+Ki)T)] 其中,T为数据仓库的存储周期,通常轻度综合的数据在数据仓库中存放的周 期是5~10年; 是考虑由于数据索引和数据冗余而使得数据量增大的冗余因子,通常可取 1.2~2。
2、数据源
需要确定哪些源数据与商业主题有关、在已有报表和 在线查询中得到哪些信息、这些信息的细节程度等。
3、关键性 能指标
需要确定衡量数据仓库成功的标准是什么、有哪些关 键性能指标、如何监控这些关键性能指标、对数据仓 库的期望用途有哪些等。
4、数据量与 更新频率
2020/6/18
需要明确数据仓库的总数据量是多大、数据更新频率 是多少等。
2020/6/18
2020/6/18
4.5 逻辑模型设计
逻辑模型设计是在概念模型设计的基础上完成的。逻辑模型设计是数据仓库设 计中的一个重要环节,因为它能直接反映业务部门的需求,同时对系统的物理 实施有着重要的指导作用。 设计数据仓库的数据模型时,常用的逻辑建模工具是以维数据建模来表示事实、 维度和粒度的关系。逻辑模型设计的目的是对每个要装载主题的逻辑实现进行 定义,并将相关的内容记录在数据仓库的元数据中。在逻辑模型设计阶段,主 要完成的工作有: (1)分析主题域,确定要装载的主题; (2)确定粒度; (3)确定数据分割的策略; (4)维度建模; (5)定义记录系统。
一、数据仓库设计的方法 数据仓库的设计方法不同于传统数据库的设计方法。传统数据库面向操作型环境, 系统设计人员能够明确了解用户需求,因此传统数据库一般采用系统生命周期法 (System Development Life Cycle,SDLC)。而数据仓库面向分析型数据环境, 设计人员要在与用户不断沟通的基础上,逐步明确与完善系统需求,因此数据仓库 设计采用CLDS(Cycle Life Development System)方法。需求分析贯穿整个数据 仓库设计过程。
2020/6/18
4.1数据仓库设计的三级数据模型
3、物理模型
物理模型是逻辑模型在数据仓库中的实现。物理模型主要解决如何 组织和存储数据,以满足系统处理的要求,如处理速度、响应时间 和存储容量。建立物理模型是一个从逻辑模型向更加具体的、依赖 于系统和数据库平台的物理性转化过程。
2020/6/18
4.2数据仓库的设计方法和步骤
报表需求
为前4个季度中每个地区每个季度的产品销售情况如何,而仓库 部门的报表需求范例可能为过去24个月中每个客户的送货情况如
何。
数据需求
2020/6/18
最终用户还可以指定数据查询和数据分析需求。数据的查询需 求,例如,快速存取,易于操作;允许用户利用自己掌握的语 言创建自己的查询等。数据的分析操作主要是对数据项进行揭 示更多细节的分片和细剖,进行数据挖掘等。
3、定义开发者的需求 数据仓库的开发人员希望能够有对所开发系统的完全、正确且清晰的描述,这 意味着需要对拥有者的商业需求进行细化,将商业需求转换为可以为数据仓库 开发人员使用的详细、可测及完全的规范。
2020/6/18
2、数据仓库需求分析需要确定的内容
1、主题域
需要明确数据仓库的主题域,例如,明确对于决策分析 最有价值的主题域有哪些、每个主题域的商业维度有哪 些、每个维度的粒度层次有哪些等。
2020/6/18
2、定义用户的需求
用户是在企业的商业活动中使用数据仓库为企业决策提供依据的人员,是数据仓库 的直接使用者。对最终用户而言,数据仓库是一个黑盒,对数据的访问是通过查询 和报表工具以及数据仓库内部所存信息的某种映射关系来完成的。最终用户的需要 主要体现在对工作流程的分析、决策的查询需求、报表需求和数据需求等方面。
2Βιβλιοθήκη Baidu20/6/18
4.1数据仓库设计的三级数据模型
2、逻辑模型 逻辑模型指数据仓库数据的逻辑表现形式,是从概念模型过渡到 物理模型的中间层次,因此又称为中间层模型。逻辑模型是对高 层概念模型的细分,在高层模型中所标识的每个主题域或指标实 体都需要与一个逻辑模型想对应。通过逻辑模型的设计,可向用 户提供一个比概念模型更详细的设计结果,使用户了解到数据仓 库能够给他们提供什么信息。逻辑模型是数据仓库开发与使用者 相互之间进行数据仓库开发的交流工具。数据仓库逻辑结构设计 主要是维表和事实表的结构设计及相互关系的定义,确定粒度策 略和数据分割策略,定义记录系统等。
需求规范
初始维模型、文 本型附录
信息元素、信息处理 元素
1、定义数据仓库拥有者的需求 数据仓库拥有者一般为企业活动中的决策人员,对商业活动分析有着迫切的需求, 是数据仓库的投资者。 数据仓库的拥有者关心的是创建数据仓库的目标,建立数据仓库给组织带来的影 响,创建数据仓库需要的投资费用以及所具有的应有前景。数据仓库需求使得拥 有者能够表达出他们的想法、确定项目发展的正确方向并给出企业的信息化目标。 对于数据仓库拥有者而言,其最终目的就是利用数据仓库来提高其商业过程的效 率,商业视图描述了其目标和期望,这也正是数据仓库需求的基础。
工作流程分析
数据仓库所提供的功能如何能满足最终用户的工作流程。
决策的查询需求
不同的用户对查询所提出的要求不同,例如来自销售部门、采 购部门和生产部门的用户所关心的问题和数据是不同的,因而 对于查询的需求也不一样。
报表需求每数个据部仓门库的的报所表有需报求表的要范求例。格例式如不,同销,售单部一门的的报报表表工需具求很范难例满可足能
需求分析 概念模型设计
逻辑模型设计
2020/6/18
物理模型设计
界定系统边界 确定主要的主题域
分析主题域 确定粒度 确定数据分割策略 维度建模 定义记录系统
确定数据的存储结构 确定数据的存储策略 确定索引策略
4.3 数据仓库需求分析
数据仓库的需求分析是数据仓库设计的基础。数据仓库不同于事务处理系统,事 务处理系统完成日常业务运行活动,对于用户的需求有明确的定义,而数据仓库 不能清楚地定义用户的需求,即不能确定用户真正想要从数据仓库中获取哪些信 息,也不能说明如何使用和处理这些信息。但是,在数据仓库设计之前,可以确 定哪些是重要衡量指标信息以及一些基本的需求。 数据仓库需求分析决定了系统的功能以及可以获得的信息,例如,哪些数据必须 被访问、这些数据如何组织以及如何对这些数据进行聚合和计算。
2020/6/18
一、分析主题域
在概念模型设计中已经确定了基本的主题域,但是数据仓库的设计是一个逐步 求精的过程,在进行设计时,一般是一次一个主题或一次若干个主题地逐步完 成的。所以,必须对概念模型设计步骤中确定的基本主题域进行分析,并选择 首先要实施的主题域。选择第一个主题的原则是:它要足够大,以便使得该主 题能被建设成为一个可应用的系统,使该主题能完成围绕该主题的决策分析需 要,同时还要便于开发和较快地实施。 例如在连锁超市的概念模型设计中确定了商品、客户和供应商三个基本主题, 其中“商品”对于超市来说是最基本的业务,因此选择“商品”作为首先要实 施的主题域。
2020/6/18
4.3 数据仓库需求分析
一、数据仓库需求分析层次
数据仓库需求分析需要对数据仓库应当具有的功能进行说明,需要数据仓 库的拥有者、最终用户和数据仓库开发者的密切合作。
拥有者
商业需求
文档、系统环境 图
商业目标、信息主题 领域
用户需求
用例、数据分析脚本
商业查询集
用户
开发者
2020/6/18
2020/6/18
4.1数据仓库设计的三级数据模型
1、概念模型
概念模型描述的是从客观世界到主观认识的映射,是客观世界到计算机 世界的一个中间层次,通过概念模型,可以用适合计算机世界的语言和 模型对客观世界的具体问题进行描述。概念模型是一种高层模型,是对 应用主题较高层次的抽象。数据仓库的概念模型是面向全局建立的,它 为来自多个面向应用的数据源的集成提供了统一的概念视图。设计概念 模型首先要对原有数据库系统加以分析理解,分析原有数据库系统中数 据内容、组织结构以及分布特点,然后考虑如何建立数据仓库的概念模 型。通过概念模型设计,可以确定主要的主题并划分出各个主题的边界 范围。概念模型的设计是在较高的抽象层次上的设计,因此建立概念模 型不用考虑具体的技术条件的限制。
2020/6/18
二、概念模型设计的方法
概念模型设计可以采用E-R(实体-关系)方法和建立信息包图的方法。E-R方法 与关系数据库逻辑模型设计类似, 这里主要介绍信息包图方法。
由于数据仓库的多维特性,利用传统的数据流程图进行概念模型设计已经不能 满足需求。信息包图提供了一个在多维空间建立用户信息模型的方法,是一种 描述多维数据信息的模型。 信息包图包含三个重要对象:指标、维度和类别。 (1)指标是用于分析的数值化信息,是访问数据仓库的关键所在,是用户最 关心的信息。它表明在维度空间衡量业务活动的关键信息和重要商业性能指标。 (2)维度提供用户访问数据仓库的角度,位于信息包图第一行的每个栏目, 如时间维、地区维、客户维、产品维等。 (3)类别用于定义维度的详细类别。
2020/6/18
1 2 3 4 5 4 3
2020/6/18
第四章 数据仓库设计
数据仓库设计的三级数据模型 数据仓库设计的方法和步骤 数据仓库需求分析 数据仓库概念模型设计 数据仓库逻辑模型设计 数据仓库物理模型设计 ETL设计
4.1 数据仓库设计的三级数据模型
细化 细化
概念模型 逻辑模型 物理模型
优先级过程的输出是按优先级顺序排列的业务过程清单,是数据仓库项目实施的 路线,通过优先级过程矩阵可以知道先实现哪些维度,最高优先级的业务过程称 为数据仓库项目的焦点。
2020/6/18
4.4 概念模型设计
概念模型设计是在需求分析基础上设计的一种与平台无关的抽象模型。这阶段 的主要工作是确定数据仓库的主题域及相互关系,对需求范围内的业务之间关 系进行高度概括性的描述,把密切相关的业务对象进行归类,划分主题域,并 对每个主题域进行较为明确的描述。
2020/6/18
4、区分优先级
区分优先级过程是基于业务价值和可行性来区分业务过程的优先级,以确保理 解需求和业务过程。区分优先级过程使用两–两矩阵来表示,如下图是区分优 先级的矩阵示例。

A
业 务 价 值
C
B D


可行性

区分优先级矩阵中,Y轴表示业务价值,越向上业务价值越高,越向下业务价值 越低;X轴代表可行性,即实现每个业务过程的难易程度,业务过程越向右越容 易即可行性高,越向左越困难即具有低可行性。
相关文档
最新文档