第一章第四节 数据仓库模型设计讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计
数据仓库的概念模型设计可以采用两种方法: E-R模型和面向对象的分析方法。 一、E-R模型 E-R图描述的是主题以及主题之间的联系。用 E-R模型进行概念模型设计的过程如图:
对主题的选择进行调整
任务和 环境评估
需求的收 集和分析
3、关联
在面向对象方法中,除了包容和继承关系之外, 类之间的其他关系都归入关联关系。因为类的动作 反映的是类对自身或者其他类的作用,而关联关系 是指类间的作用与反作用,所以关联关系可以通过 类的动作来体现。
教师
教/学
学生
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计 二、面向对象的分析方法
在面向对象的方法中,类之间存在三种关系: 继承、包容和关联。
1、继承
交通工具
汽车
火车
轮船
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计 二、面向对象的分析方法 2、包容
学校
教师
学生
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计 二、面向对象的分析方法
主题选取, 确定主题间关系
主题内 容描述
E-R图
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计 (1)任务和环境的评估 (2)需求的收集和分析 (3)主题的选取,确定主题间关系 主题选取的原则:
1)优先实施管理者目前最迫切需求、最关心的主题。 2)优先选择能够在较短时间内发生效益的决策主题。 3)推后实施业务逻辑准备不充分的主题。 4)推后考虑实现技术难度大、可实现性较低、投资风 险大的主题。
客观世界
主观世界
关系模型
物理实现 的细节
概念模型
逻辑模型
物理模型
第一章 数据仓库原理
1.4 数据仓库模型设计 1.4.2 数据仓库设计的三级数据模型
五、高级模型、中级模型和低级模型
高级模型:即数据概念模型,用E-R图表示。 低级模型:即物理数据模型。 中级模型:称为数据项(dis-data item set)。
描述类属性、动作
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计 二、面向对象的分析方法
类常用的图形表示方法是类表。
类名 类的属性集合 类的动作集合
汽车
属性: 颜色 类型 ……
动作: 行驶()
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计 二、面向对象的分析方法
例:中医数据仓库选择出三个类:药物类、方剂类、病症 类,其中药物类可以派生出治感冒的药物、治脾胃的药物 和治肠炎的药物三个子类,各类之间的关系如图:
方剂
药物
病症
治感冒的药物
治脾胃的药物
治肠炎的药物
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.4 数据仓库的逻辑模型设计
进行逻辑模型设计所要完成的主要工作有: (1)系统数据量的估算 (2)数据粒度的选择 (3)确定数据分割策略 (4)增加时间字段 (5)去除纯操作型数据 (6)进行合理的表划分 (7)定义关系模式 (8)增加导出字段 (9)定义记录系统
1.4.3 数据仓库的概念模型设计
二、面向对象的分析方法 采用面向对象方法进行概念模型设计时,E-
R模型中的实体转化为面向对象系统中的类,E-R 模型中实体的属性对应面向对象系统中类的属性, E-R模型中实体间的关系表现为面向对象系统中 类间的关系。
对类的选择进行调整
环境评估 需求分析
选择类
确定类间关系
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.2 数据仓库设计的三级数据模型
二、逻辑模型
目前数据仓库一般建立在关系数据库基础之 上。因此,在数据仓库的设计中采用的逻辑模型 就是关系模型,无论是主题还是主题之间的联系, 都用关系来表示。逻辑模型描述了数据仓库的主 题的逻辑实现,对于关系数据库来说,即每个主 题所对应的关系表的关系模式的定义。它能直接 反映出业务部门的需求,同时对系统的物理实施 有着重要的指导作用。
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.2 数据仓库设计的三级数据模型 五、高级模型、中级模型和低级模型
dis是E-R图的细分。E-R图的每一个主题都 与一个dis相对应。
dis
中级模型
dis
主题1 主题2
E-R图 高级模型
dis
中级模型
dis
主题3
主题4
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计
日期
供应商号
供应商固 有信息
商品固 有信息
商品库 存信息
商品销 售信息
商品采 购信息
供应商 品信息
供应商
供应 日期
客户号
商品 购买 客户
日期
商品号
客户购 物信息
客户固 有信息
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.1 数据仓库模型设计方法概述 1.4.2 数据仓库设计的三级模型 1.4.3 数据仓库的概念模型 1.4.4 数据仓库的逻辑模型 1.4.5 数据仓库的物理模型 1.4.6 数据装载接口设计
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.1 数据仓库模型设计方法概述
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计
例1:假设有商品、客户和供应商三个主题。 商品有如下属性组:商品固有信息 商品库存信息 商品销售信息 商品采购信心 客户有如下属性组:客户固有信息 客户购物信息 供应商有如下属性组:供应商固有信息 供应商品信息 则可得到如下E-R图:
第一章 数据仓库原理
数据仓库系统的设计与数据库系统设计的区别
数据库系统设计 数据仓库系统设计
面向的数据类型
面向应用
面向分析
应用需求
比较明确
不太明确
系统设计目标 数据来源
事务处理的并发性、 保证数据的四个特征
安全性、高效性
和全局一致性
业务操作员的输入
业务系统
系统设计的方法
需求驱动
数据驱动
第一章 数据仓库原理
1.4 数据仓库模型设计 1.4.1 数据仓库模型设计方法概述
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.4 数据仓库的逻辑模型设计 一、系统数据量估算
数据仓库数据量级的一个简单估算方法是: 设在概念模型中出现的表个数为N(这些表中 应当不包括不会放进数据仓库的表),对于每个 表i(0<i<=N)计算表的大小Si和表的主关键字大小 Ki,然后估计每张表i在单位时间内最大记录数 Lmax和最少记录数Lmin。则数据仓库的粗略数据 量在如下范围:
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.4 数据仓库的逻辑模型设计 一、系统数据量估算
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计
主题的描述
主题名 公共码键
属性组
药物 方剂 病症
药物ID 方剂ID 病症ID
药物基本信息:药物ID、药名、味性、归经、功效、 主治和禁忌等
药物相关信息:药物ID、产地、采集、保存、炮制等
方剂基本信息:方剂ID、方剂名、煎服方式、文献等 方剂药物信息:方剂ID、药物ID、剂量等 方剂适宜病症:方剂ID、病症ID等
1)数据模型是整个系统建设过程的导航图。 2)有利于数据的整合。 3)通过数据模型的建立,可以排除数据描述的不一 致性。 4)由于数据模型对现有的信息以及信息之间的关系 从逻辑层进行了全面的描述,当未来业务发生变化或系统 需求发生变化时,可以很容易地实现系统扩展。
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4 数据仓库模型设计
1.4.2 数据仓库设计的三级数据模型
五、高级模型、中级模型和低级模型
2)基本数据组 基本数据组包含了本主题中固定的、基本
不变的属性。 3)二级数据组
是本主题中有时会发生变化的数据,其稳 定性低于基本数据组。 4)类型数据组
是本主题中经常改变的数据,其稳定性最 低。
第一章 数据仓库原理
1.4.2 数据仓库设计的三级数据模型 5)可以消除数据仓库中的冗余数据。
数据仓库建模是数据仓库构建工作正式开 始的第一步,正确而完备的数据模型是用户业 务需求的体现,是数据仓库项目成功与否最重 要的技术因素。目前较为流行的数据仓库设计 模型是概念模型、逻辑模型和物理模型三级数 据模型。
第一章 数据仓库原理
1.4.2 数据仓库设计的三级数据模型 五、高级模型、中级模型和低级模型
每个dis中的数据分为4个组别:基本数据组、 二级数据组、连接数据组和类型数据组。
1)连接数据组 主要用于本主题与其他主题之间的联系,体 现E-R图中主题之间的关系。一般情况下,连接 数据组往往是一个主题的公共码键。
第一章 数据仓库原理
病症基本信息:病症ID、病症名、临床表现、病机等
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3
病症基本 信息
病症
数据仓库的概念模型设计 药物
药物基本 信息
药物ID
病症ID
方
源自文库
症
处方
药物相关
方
信息
药
方剂ID
方剂药物 信息
方剂适宜 病症
方剂基本 信息
第一章 数据仓库原理
1.4 数据仓库模型设计
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计
通过概念模型设计,可以确定数据仓库的主要主 题及相互关系。
进行概念模型设计所要完成的工作有: 1)界定系统边界,即进行任务和环境评估、需 求收集和分析,了解用户迫切需要解决的问题及解决 这些问题所需要的信息,要对现有数据库中的内容有 一个完整而清晰的认识。 2)确定主要的主题域及其内容,即要确定系统 所包含的主题域,然后对每一个主题域的公共码键、 主题域之间的联系、充分代表主题的属性组进行较为 明确的描述。
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计
(4)主题内容描述 描述的内容包括: 1)主题的公共码键。 2)主题之间的联系。 3)充分代表主题的属性组。
(5)E-R图 长方形——表示主题 椭圆形——表示主题的属性组 菱形——表示主题之间的联系
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.2 数据仓库设计的三级数据模型 类型数据组
五、高级模型、中级模型和低级模型
例: 基本数据组
商品ID
连接数据组
二级数据组
客户ID 姓名 性别
身份证号码
住址 文化程度
电话 E-mail
交易ID 商品金额 电器 购买时间
交易ID 商品金额
购买时间
床上 用品
交易ID 商品金额 食品 购买时间
数据仓库系统的设计可以分为数据仓库模 型设计和数据装载接口的设计两大部分,其中 数据仓库模型设计又包括概念模型设计、逻辑 模型设计和物理模型设计三个部分。
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.2 数据仓库设计的三级数据模型
数据模型是数据仓库建设的基础,一个完整、 灵活、稳定的数据模型对于数据仓库项目的成功 起着如下重要的作用:
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.2 数据仓库设计的三级数据模型 三、物理模型
物理模型是逻辑模型在数据仓库中的实现,
如数据存储结构、数据索引策略、数据的存储策
略以及存储分配优化等。
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.2 数据仓库设计的三级数据模型 四、三种模型之间的关系
例2、中医药方剂是中医治疗疾病的重要手段,方剂 中蕴涵着中医博大、精深的理论。为了揭示蕴涵在 方剂中的应用规律和内部的有机联系,推动传统医 学的发展,加快新药产品的开发,要建立中医方剂 数据仓库。
第一章 数据仓库原理
1.4 数据仓库模型设计
1.4.3 数据仓库的概念模型设计
方剂中的信息可以分为两个部分:一部分是药物 的配比,即需要哪几味中药,每种药材各需要多少; 另一部分则是其主治的病症,这两部分信息被方剂有 机地联系在一起。药物的配比是由药理决定的,而病 症的规则又是与病因和发展的机理密切联系,要分析 方剂,就不可能不研究这两方面的信息。因此可以确 定主要的主题为方剂、药物、病症,所需的数据为方 剂数据、药物数据、病症数据。
1.4 数据仓库模型设计
1.4.2 数据仓库设计的三级数据模型 一、概念模型
概念模型描述的是从客观世界到主观认识的 映射,它是用于我们为一定的目标设计系统、收 集信息而服务的一个概念性工具。在进行系统设 计时,我们首先要将现实世界抽象为概念模型, 然后再用计算机世界的模型和语言对客观世界中 的具体问题进行描述。