数据仓库设计方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
开发者负责数据仓库各个构件的物理安装和
集成。
开发者需求进一步包括如下四个方面: A.技术需求 B.试用需求 C.数据仓库产品就绪需求 D.开发与使用人员及其技术需求
(4)最终用户需求的分析
数据仓库相对最终用户而言是一个黑箱,他
们只能通过查询、报表工具和数据仓库内部信息
的某种影射关系来访问数据仓库内部数据。因而
用现在技术迅速产生结果,以后可以 加入新技术
项目方法 假设/约束
角色
表3-1 数据仓库项目对照表(2)
高度循环性的DW开发
可以得到优秀的员工;最终用户一开始 就能接受特别查询
用户项目代表 项目经理 数据建模人员 业务分析人员 系统分析员
开发人员 用户
主题事务专家
项目每六个月交付一次成果,然后继续 逐步交付结果
数据流图和判定表(判定树)、数据字典 中处理过程的描述
概 念 结 构 设计
概念模型(E-R图) 数据字典
系统说明书包括: A.新系统要求、 方案和概图 B.反映新系统信 自流的数据流图
逻 辑 结 构 设计
某种数据模型 关系
非关系
系统结构图 (模块结构)
图3-2 数据库结构设计(2)
存储安排 物 理 方法选择 设 存取路径建立 计
1.数据仓库的技术平台 (1)单层结构:主要是指在数据源和数据仓库之
间共享平台,或者让数据源、数据仓库、数据集 市与最终用户工作站使用同一个平台。
(2)客户/服务器两层结构:在这类结构中,一 层为客户机,一层为服务器。最终用户访问工具 在客户层运行,而数据源、数据仓库和数据集市 位于服务器上。该技术结构一般用于普通规模的 数据仓库。
确立目标后要做的第一件事就是明确责任。
没有明确的职责分工,就、小组就要花一些时间
去搞清楚什么事情必须做、决定谁来做哪一件工 作、决定什么时候做和怎样去做。
小组确定了目标、分派好角色后,就要确定一个 达到目标的战略了。
小组成员接着再确定他们将要用来开始工作
ቤተ መጻሕፍቲ ባይዱ
的资料,并将其存档。
小组成员们都很忙,他们可能没有多少时间
(3)三层客户/服务器结构:这类结构包括基于 工作站的客户层、基于服务器的中间层和基于主 机的第三层。主机(宿主)层负责管理数据源和 可选的源数据转换;服务器运行数据仓库和数据 集市软件,并存储仓库的数据;客户工作站运行 查询和报表运用程序,且还可以存储从数据集市 或数据仓库卸载的局部数据。
(4)多层式结构:这是在三层客户/服务器结构 上发展起来的数据仓库结构。
了适应特定的商业应用提出数据仓库系统的发展 前景。 (2)规划和成长阶段:此阶段为开展商业活动。
(3)控制阶段:在这个阶段要用控制和整合的办 法将应用系统整合,把聚焦点正确地转移到“集中 化方法”上,以求在企业级的真正数据仓库中,为 企业决策分析提供强有力的支持,从而将多个数 据仓库结合起来,形成一个决策支持环境。
一个小组成功地运作,必须具备三个基本的条件
:
A.要完成的任务必须清楚明确。
B.小组必须是明确确定的。 C.小组必须对它的项目有自始至终的控制。
建立高效小组的四项基本原则是内聚力、目标、 反馈和共同工作框架。
(2)创建项目开发小组
当小组开始成为整体的时候,他们首先要确
定和接受一系列共同的目标。
3.2.3 数据仓库的数据抽取、加载与复制 3.2.4 数据仓库逻辑模型的确定 3.2.5 数据仓库物理模型的确定 3.2.6 数据仓库测试 3.3 数据仓库典型解决方案
3.1.1 数据库设计方法简述
在相当长的一段时期内,数据库设计主要采用的 是手工试凑方法。
按照规范设计的思想,一般将数据库设计细分为 数据库需求分析阶段、数据库概念设计阶段、数 据库逻辑设计阶段、数据库物理设计阶段、数据 库实施阶段和数据库运行、维护六个阶段。
,最终用户的需求主要体现在对工作流程的分析
、决策的查询需求、报表需求、操作需求和数据
需求等方面。同时,在进行数据仓库的最终用户
需求分析时,还需要对数据仓库的主题域、信息
的粒度、数据仓库的维度进行分析。
3.1.4 数据仓库规划
1.项目开发小组
(1)项目开发小组概述:
不是所有的团体都是小组。一个团体要作为
F.将数据从现有系统中传送到仓库中。
(3)数据仓库的使用维护阶段,在该阶段的工作 内容主要包括:
A.将数据仓库投入实际应用,并在应用中改进和 维护数据仓库。
B.对数据仓库进行效益评价,以为下一个循环提 供依据。
图3-4 数据仓库的生命周期开发应用全过程
开发概 念模型
开发 逻辑 模型
设计 体系 结构
确 (3)数据仓库的开发是一个不断循环的过程,是
启发式的开发。
3.1.3 数据仓库需求分析
数据仓库的需求分析根据不同领域可以划分为 业主(投资者)的需求、设计的需求、开发者的 需求和最终用户的需求等方面。
(1)业主需求的分析
数据仓库的业主关心的是创建数据仓库的目 标,建立数据仓库给组织战略带来的影响,创建 数据仓库所需的投资费用以及所具有的应用前景 。业主常常参与数据仓库概念模型的认可和评审 ,批准开发方案,为系统以后的不断升级和连续 投资进行决策。
数据范围 业务原因
分类
一个主题区“信用卡”
向接受该银行信用卡的组织宣传信用卡( 如趋势、人口统计特征等)的决策支持项 目
战略性的
多个主题区,包括“收入”、“赔款” 和“顾客”
业务支持,数据合并
战术性的
时间范围
3-6个月的增加业务价值
6-9个月取得初步成果
技术范围
公司近期政策要求把所有新的商务软件 都放在客户机/服务器体系结构上
从数据仓库的应用角度来看,DSS分析员一般 是企业的中上层管理人员,他们对决策分析的需 求不能预先做出规范的说明,只能给设计人员一 个抽象的(模糊的)描述。
应用需求 (数据、处理)
转换规则、 DBMS功能、
优化方法
应用要求, DBMS详 细特征
图3-1 数据库设计步骤
需求收集和分析 设计概念结构
竞争性的市场使一家金融组织认识到,它 必须开始利用其日常活动中包含的大量 信息。企业的资产很多,但它没有预测 其信用卡使用状况和利润率的能力
一家财产和事故保险公司无法为有多张保 险单和复杂保险险种的顾客传递统一的结 账数据。因此要求将多个来源中的数据与 一个能生成统一报表和进行用户查询的数 据模型对应起来
(3)信息传递层:是数据仓库结构中支持一套共 用的表示工具和分析工具的组成部分。
3.数据仓库的数据库设计
数据仓库的数据库主要包含存储用户进行决策 分析的数据库和描绘数据的元数据库。
存储用户分析数据的数据库可以采用关系型数 据库、多维数据库和对象数据库实现。
元数据库是数据仓库的灵魂。没有元数据库, 用户就无法对数据仓库数据进行良好的定义、组 织和管理。
第三章 数据仓库设计
第3章 数据仓库设计
3.1 数据仓库的需求与规划 3.1.1 数据库设计方法简述 3.1.2 数据仓库开发流程 3.1.3 数据仓库需求分析 3.1.4 数据仓库规划 3.2 建立数据仓库 3.2.1 数据仓库的平台与结构选择 3.2.2 数据仓库接口与中间件设计
(2)数据仓库设计实施阶段,在该阶段的工作内 容主要包括:
A.按照数据仓库的逻辑模型设计数据仓库的体系 结构。
B.设计数据仓库的物理数据库。
C.用物理数据库元数据填充面向最终用户的元数 据库。
D.对数据仓库中每个目标字段确认其在业务系统 或外部数据源中的数据来源。
E.开发(或购买)用于抽取、清洁、交换和合并 数据等中间件的程序。
在数据库实施阶段,设计人员的主要工作是使用 DBMS所提供的语言和宿主语言,根据数据库逻
辑设计阶段和数据库物理设计阶段的成果建立数 据库,并编制和调试数据库应用程序。
在数据库运行和维护阶段,设计人员的主要工 作是将是运行后的数据库正式运行,并在运行过 程中,对数据库所反映出的问题不断修改、评价 、调试和完善。
图3-3 数据库的不同模式
应用1 应用要求 应用2 应用要求 应用3 应用要求
应用4 应用要求
应用1 外模式
应用2 外模式
应用3 外模式
应用4 外模式
映象
概念 模式
逻辑 模式
内模式
综合
转换
映象
3.1.2 数据仓库开发流程
设计和建立数据仓库应采取工程管理的方式进行 。
1.数据仓库系统的4个阶段 (1)设想阶段:在数据仓库设想阶段,一般是为
(4)稳定阶段:主要任务是在使用决策支持和数 据仓库过程中不断的改进,是数据仓库逐渐成熟 。
2. 数据仓库的开发流程
(1)数据仓库规划分析阶段,在该阶段的工作内 容主要包括:
A.分析数据仓库应用环境,调查数据仓库开发需 求,完成数据仓库的开发规划。
B.建立包括实体关系图、星型模型、雪花模型、 元数据模型以及数据源分析的主题区数据模型, 并根据主题区数据模型开发数据仓库逻辑的模型 。
分区1 分区2
编写模式 实 施 装入数据 阶 数据库试运行 段
Creat….. Load……
运
行 维 护
性能监测、转储/恢复 数据库重组和重构
模块设计 IPO表
IPO表…… 输入: 输出: 处理:
程序编码、 编译联结、测试
Main( ) …… If…… Then …… end
新旧系统转换、运行、维护(修正性、适 应性、改善性维护)
2. 数据仓库的体系结构
(1)信息获取层:负责数据的收集、提纯、净化 和聚合,以及从组织外部数据源和组织的业务处 理系统中获取数据。
(2)信息存储层:提供包含时点信息的单一逻辑 信息,这种数据通常以最分散的方式存放——需 要尽可能使物理设计符合数据模型,这对最终产 生满足各种设计要求的灵活性是十分重要。
(2)设计者需求的分析
数据仓库设计者不但要收集业主对数据仓库 的需求,还要收集实现这些需求所需的技术要求 。设计者介于投资者和实现者之间。
企业结构规划(EAP)法是用于结构设计的一
种最有效的方法,在该法中,设计者可以实现以 下3种结构。
A.数据结构。
B.应用程序结构。
C.技术结构。
(3)开发者需求的分析
变换设计 物理数据库设计
DW开发 DW填充和实现
除了项目开发计划书外,项目开发小组的项 目规划活动还将产生:
A.文档化的业务驱动因素。 B.数据范围。 C.时间范围。 D.业务原因。
E.总体方法。 F.参与者及其作用。 G.假设和约束。 H.项目管理战略。
3.2.1 数据仓库的平台与结构选择
需求分析阶段 概念设计阶段
设计逻辑结构 数据模型优化
逻辑设计阶段
设计物理结构
评价设计,性能预测 不满意
物理实现
不满意
试验性运行
使用、维护数据库
物理设计阶段 数据库实施阶段 数据库运行、维护阶段
图3-2 数据库结构设计(1)
设计 阶段
需求 分析
数据
设计描述
处理
数据字典、全系统中数据项、 数据流、数据存储的描述
可以得到优秀员工
用户项目代表 项目经理 数据建模人员 业务分析人员 系统分析员
开发人员 用户
主题事务专家
所选的步骤
建模 决策者的需求 主题区分析 源系统分析 最终用户(EU)访问方法设计 EU访问方法界定 EU访问方法开发
交换设计 物理数据库设计
DW开发 DW填充和实现
建模 DSS体系结构 决策者的需求 主题区分析 源系统分析 EU访问方法设计
实际上,数据库实际步骤也包括了数据库应用 系统的设计过程。
有关对数据处理特性的描述中,不同的数据库 的设计过程、数据库设计的不同阶段应该具有不 同的数据模式。如在需求分析阶段,应该是用户 应用需求模式;在概念设计阶段,应该是产品的 概念模式;而在逻辑设计阶段,则应该是有关数 据产品支持的数据模型。
规划与 确定需
求
规划 分析阶段
数据仓库 开发过程
设计实 施阶段
数据库 与元数 据设计
确定 数据 抽取源
数据仓 库评价
使用维护 阶段
开发 中间 件
数据 仓库 维护
数据 仓库 应用
填充与 测试数 据仓库
3. 数据仓库的开发特点
数据仓库的使用也即在数据仓库中建立DSS应用
。数据仓库的开发特点包括: (1)数据仓库开发要从数据出发 (2)数据仓库使用的需求不可能在开发初期就明
来聚在一起,这就破坏了小组工作的一个关键—
—交流。
2.项目开发小组对数据仓库规划
与其他项目一样,一个好的计划能带来有效的开 端,数据仓库项目开发小组必须要对即将开发的 数据仓库项目进行整体规划,作出项目开发计划 书,以使项目变得易于理解。
表3-1 数据仓库项目对照表(1)
项目1
项目2
业务驱动因素