第3章数据仓库设计与开发[1]

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第3章数据仓库设计与开发[1]
逻辑模型设计——星形模型
§ 星形模型虽然是一个关系模型,但是它不是一个 规范化的模型。在星形模式中,维度表被故意地 非规范化了,这是星形模式与OLTP系统中关系 模式的基本区别。
§ 使用星形模式主要有两方面的原因:
Ø 一是可以提高查询的效率。 采用星形模式设计的数据仓库的优点是由于数据的组 织已经过预处理,主要数据都在庞大的事实表中,所 以只要扫描事实表就可以进行查询,而不必把多个庞 大的表联接起来,查询访问效率较高,同时由于维表 一般都很小,甚至可以放在高速缓存中,与事实表进 行连接时其速度较快,便于用户理解;
第3章数据仓库设计与开 发[1]
2020/11/26
第3章数据仓库设计与开发[1]
教学目标
§ 掌握数据仓库的设计和开发方法,包括数 据模型的设计、粒度、维度设计以及数据 仓库的开发步骤 。
第3章数据仓库设计与开发[1]
教学要求
知识要点 数据仓库的开 发过程与方法
数据模型设计
能力要求
(1) 掌握数据仓库的开发过程 (2) 掌握数据仓库设计的内容
第3章数据仓库设计与开发[1]
概念模型设计
3.E-R图的描述方法
(1) 矩形。矩形表示实体,在数据仓库中表示主 题,在矩形框内写上主题名。
(2) 椭圆形。椭圆形表示主题的属性,并用无向 边把主题与其属性连接起来。
(3) 菱形。菱形表示主题之间的联系,菱形框内 写上联系的名字。用无向边把菱形分别与有 关的主题连接,在无向边旁标上联系的类型。 若主题之间的联系也具有属性,则把属性和 菱形也用无向边连接上。
星形模型基本设计技术
(1) 正确区分事实、属性和维度。 § 维度模型需要对事实和属性进行区分,业务层的
很多事实都是数值型的,特别是该数值是浮点数 时,他很可能是一个事实,而不是属性。
Ø 例如“标准价格”,好像是产品维度的一个属性,似 乎是事先一致的常量,但每年对标准价格进行一、两 次调整,因此应该设计成事实。
数据等中间件程序; § 将数据从数据源加载到DW,并且进行测试。
第3章数据仓库设计与开发[1]
数据仓库开发的生命周期
3.DW使用维护阶段 § DW投入使用,且在使用中改进、维护DW; § 对DW进行评价,为下一个循环开发提供依
据。
第3章数据仓库设计与开发[1]
DW开发的特点
1.数据仓库的开发是从数据出发的
§ 属性通常指文本字段,例如产品描述。 § 维度是类似于文本形式的属性组合,固定的数值
型属性应放在维表中。
Ø 例如,零售数据仓库中,至少应有一个产品维度,一 个商店维度,一个客户维,一个时间维,一个促销维。
第3章数据仓库设计与开发[1]
星形模型基本设计技术
(2) 事实表的设计方法。 § 事实表是数据仓库中最大的表,在设计时,一定
3.数据仓库的开发是一个不断循环的过程,是启发式的开 发
Ø DW的开发是一个动态反馈和循环的过程,一方面DW的数据内容、 结构、力度、分割以及其他物理设计应该根据用户所返回的信息 不断的调整和完善,以提高系统的效率和性能;
Ø 另一方面,通过不断理解用户的分析需求,不断的调整和完善, 以求向用户提供更准确、更有效的决策信息。
§ 雪花模型是对星形模型的扩展,每一个维 度都可以向外连接多个详细类别表。
§ 在这种模式中,维度表除了具有星形模型 中维度表的功能外,还连接对事实表进行 详细描述的详细类别表,详细类别表通过 对事实表在有关维上的详细描述达到了缩 小事实表和提高查询效率的目的。
第3章数据仓库设计与开发[1]
注意使事实表尽可能的小,因为过大的事实表在 表的处理、备份和恢复、用户查询等方面要用较 长的时间。具体方法主要有:
Ø 减少列的数量; Ø 降低每列的大小; Ø 把历史数据存档; Ø 对行进行分割。
§ 例如,零售营销事实表设计如下:
第3章数据仓库设计与开发[1]
星形模型基本设计技术
(3) 维表的设计。 § 维表的属性必须具有以下特征:
例:在商品销售分析DW模型中,商品的销售数量、金 额、企业利润等是分析数据;销售的时间、地点等使 用户感兴趣的描述数据;销售产品的详细情况、购买 商品的客户详细情况等是细节数据。
(2) 数据的历史变迁性。DW的数据模型增加时间属性作 为码的一部分
(3) 数据的概括性。DW的数据模型中增加了一些衍生数 据,专门用于分析的DW系统需要一些概括性的数据, 这些数据在业务处理系统的数据模型中是不需要的。 例如,在销售管理的业务系统中的数据模型中,通常 只需要记录当前细数据,而在数据仓库的数据模型中, 需要保存一些统计、累加而来的综合数据。
§ DW数据模型源于OLTP系统数据模型以及 企业数据模型
第3章数据仓库设计与开发[1]
概念模型设计
1. 设计方法
Ø 在建模之前定义数据模型的边界, Ø 然后建立企业内不同群体的实体-联系模型, Ø 最后进行集成企业的总体概念模型。
第3章数据仓库设计与开发[1]
概念模型设计
2. 注意事项
(1) 在DW的数据模型中不包含操作性数据,只包含用户 感兴趣的分析数据、描述数据和细节数据。
第3章数据仓库设计与开发[1]
数据仓库开发的生命周期
2.DW设计实施阶段 § 根据DW的逻辑模型设计DW体系结构; § 设计DW与物理数据库,用物理数据库元数
据装载面向最终用户的元数据库; § 为DW中每个目标字段确定他在业务系统或
外部数据源中的数据来源; § 开发或购买用于抽取、清洗、转换和聚合
Ø 创建DW是在原有的数据库系统中的数据基础上进行的,我们称 之为“数据驱动”。
Ø 数据驱动设计方法的中心是利用数据模型有效的识别原有的数据 库中的数据和DW中主题的数据“共同性”。
2.DW使用的需求不能在开发初期完全明确
Ø 在数据仓库环境中,并不存在固定的且较确切的物流、数据流、 和信息流,
Ø 数据分析处理的需求更加灵活,更没有固定的模式, Ø 甚至用户自己也对所要进行的分析处理不能事先全部确定
第3章数据仓库设计与开发[1]
数据仓库开发的生命周期
第3章数据仓库设计与开发[1]
数据仓库开发的生命周期
1.DW规划分析阶段 § 调查、分析DW环境,完成DW的开发规划,
却定DW开发需求。 § 建立包括实体图、星型模型、雪花模型、
元数据模型及数据源分析的主题域数据模 型,并且根据主题域数据模型开发DW逻辑 模型。
§ 数据仓库是多维数据库,它扩展了关系数据库模 型,以星形架构为主要结构方式的,并在它的基 础上,扩展出理论雪花形架构和数据星座等方式, 但不管是哪一种架构,维度表、事实表和事实表 中的量度都是必不可少的组成要素。
第3章数据仓库设计与开发[1]
逻辑模型设计——星形模型
§ 星形模型是最常用的数据仓库设计结构的实现模 式,它使数据仓库形成了一个集成系统,为最终 用户提供报表服务,为用户提供分析服务对象。
第3章数据仓库设计与开发[1]
思考
§ 数据仓库的开发过程与数据库的开发过程 有什么不同?为什么?
第3章数据仓库设计与开发[1]
数据仓库设计的主要内容
第3章数据仓库设计与开发[1]
数据模型设计
§ DW数据模型具有如下特点。
(1) 去掉纯操作性数据。 (2) 给键码增加时间因素。 (3) 合适之处增加导出数据。 (4) 把OLTP系统中数据关系变为人工关系。
与步骤
(1) 掌握概念模型的设计 (2) 掌握逻辑模型的设计 (3) 掌握物理模型的设计 (4) 掌握粒度的设计原则
数据仓库的构建 掌握数据仓库构建的步骤
相关知识点
(1) 数据仓库开发的3个阶段 (2) 数据驱动的设计 (3) 数据模型设计的重点
(1) 面向主题的E-R模型 (2) 星型模型和雪花模型 (3) 事实表与维表 (4) 粒度
第3章数据仓库设计与开发[1]
思考:
§ 请你估计一下沃尔玛的数据仓库中一年的 数据量有多大?
§ 沃尔玛的数据仓库是怎样建成的?
第3章数据仓库设计与开发[1]
本章内容
§ 数据仓库的开发过程及特点 § 数据模型设计 § 数据仓库的粒度设计 § 创建数据仓库的基本步骤
第3章数据仓库设计与开发[1]
数据仓库的开发过程及特点
§ 按照生命周期发法可将数据仓库开发的全部过程 分成三个阶段。
(1) 数据仓库规划分析阶段。 (2) 数据仓库设计实施阶段。 (3) 数据仓库的使用维护阶段。
§ 这三个阶段不是简单的循环往复,而是不断完善 提高的过程。
Ø 一般情况下,数据仓库系统都不可能在一个循环过程 中完成,而是经过多次循环开发,每次循环都会给系 统增加新的功能,这种循环的工作永远不会终结,数 据仓库也就一直处于一个不断完善、不断提高的循环 过程中。
§ 销售数据、库存数据每天夜间从3000多个商店自动采集 过来,并通过卫星线路传到总部的数据仓库里。
§ 沃尔玛数据仓库里最大的一张表格(Table)容量已超过 300GB、存有50亿条记录,可容纳65个星期3000多个商 店的销售数据,而每个商店有5万到8万个商品品种。
§ 利用数据仓库技术,沃尔玛对商品进行市场类组分析,即 分析哪些商品顾客最有希望一起购买。
§ 维度表主要包含了存储在事实表中数据的特征数 据。
Ø 每一个维度表利用维度关键字通过事实表中的外键约 束于事实表中的某一行,实现与事实表的关联,这就 要求事实表中的外键不能为空,这与一般数据库中外 键允许为空是不同的。
§ 这种结构使用户能够很容易地从维度表中的数据 分析开始,获得维度关键字,以便连接到中心的 事实表ห้องสมุดไป่ตู้进行查询。
第3章数据仓库设计与开发[1]
概念模型设计
§ 某商场的商品、顾客和供应商之间的概念模型的E-R图
第3章数据仓库设计与开发[1]
逻辑模型设计
§ 关系数据库一般采用二维数据表的形式来表示数 据,一个维是行,另一个维是列,行和列的交叉 处就是数据元素。关系数据的基础是关系数据库 模型,通过标准的SQL语言来加以实现。
§ 每一个维度表通过一个主键与事实表进行连接。
第3章数据仓库设计与开发[1]
逻辑模型设计——星形模型
第3章数据仓库设计与开发[1]
逻辑模型设计——星形模型
§ 事实表
Ø 主要包含了描述特定商业事件的数据,即某些特定商 业事件的度量值。
Ø 一般情况下,事实表中的数据不允许修改,新的数据 只是简单地添加进事实表中,
(1) 运行环境 (2) 实现技术 (3) ETL (4) 数据仓库的维护
第3章数据仓库设计与开发[1]
引例:沃尔玛的数据仓库
§ 沃尔玛利用NCR的Teradata可对7.5TB的数据进行存储, 这些数据主要包括各个商店前端设备(POS、扫描仪)采集 来的原始销售数据和各个商店的库存数。
§ Teradata数据库里存有196亿条记录,每天要处理并更新 2亿条记录,要对来自6000多个用户的4.8万条查询语句 进行处理。
§ 将E-R图转换成维度建模时的步骤是:
(1) 将E-R图分成独立的业务处理,然后对每个业务处理 单独建模。
(2) 在E-R图中,对包含数字型事实和可加性非码事实的 实体,选择其中的多对多关系,并且将他们设计成 各个事实表。
(3) 将剩下的实体进行非规范化处理,设计成为表。
第3章数据仓库设计与开发[1]
Ø 可用文字描述; Ø 离散值; Ø 有规定的约束; Ø 在分析时可提供行标题。
§ 时间维在数据仓库中占有特定位置,建议 使用时间维度。
§ 图3.6是零售业营销分析的星型模型图。
第3章数据仓库设计与开发[1]
星形模型基本设计技术
§ 零售业营销分析的星型模型图
第3章数据仓库设计与开发[1]
逻辑模型设计——雪花模型
Ø 二是对于非计算机专业的用户而言,星形模式比较直 观,通过分析星形模式,很容易组合出各种查询。
第3章数据仓库设计与开发[1]
逻辑模型设计——星形模型
§ 逻辑模型与实体-关系建模之间的关系 实体-联系图是代表企业中每一个可能的业务过 程,一个实体-联系图可以拆分成多个维表、事实 表构成的逻辑模型。
§ 星形模式通过使用一个包含主题的事实表和多个 包含事实的非正规化描述的维度表来支持各种决 策查询。
§ 星形模型可以采用关系型数据库结构,模型的核 心是事实表,围绕事实表的是维度表。通过事实 表将各种不同的维度表连接起来,各个维度表都 连接到中央事实表。维度表中的对象通过事实表 与另一维度表中的对象相关联,这样就能建立各 个维度表对象之间的联系。
相关文档
最新文档