超市数据仓库雪花模型的设计与应用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
图 2 连锁超市数据集市雪花模型 四、数据仓库的“雪花模型”的应用 从形式上看,雪花模型比星型模型结 构复杂,但设计好的雪花模型却有星型模 型难以替代的应用价值。 雪花模型是星型模型的衍生。在研究 雪花模型的应用时,要用雪花模型的优势 弥补星型模型的不足;还要充分继承星型 模型的优势,扬长避短,使数据模型能在构 建数据仓库和开发应用中更好地发挥作用。 1 . 雪花模型在处理大维度方面的应用 数据仓库的大维度问题虽然可以通过 事实表来体现,但这种方法导致事实表极 为庞大且难于管理,当层次定义发生改变 时,事实表需要重新设计和构建。 雪花模型解决了星型模型中复杂的大 维度问题。通过对维度表的属性按层次和 类别进行分解;将非分析数据进行分离,使 大维度表得到有效的规范化处理,较好地 消除了数据的冗余,从而使事实表的字段 数和总长度减小,以节省存储空间。 2 . 雪花模型在建立聚集事实表方面的 应用 事实表中数据的细节程度或综合程度 的级别称为数据“粒度”。粒度是数据仓库 事实表的重要的特征。不同的需求,对粒度 要求不同。
星型模型。例如:
表的表名、粒度、相应的维度属性存放在汇
为了分析会员客户对各种品牌商品的 总表中,并通过数据仓库元数据进行管理。
购买情况,在雪花模型中对客户维和商品 这样,O L A P 就能根据汇总表的指示,选用
维进行二路聚集即可。如图 3 所示。
不同粒度的聚集事实表进行切片、切块、聚
为了分析会员客户一年中对各类商品的 合、钻取、旋转等操作,提高了分析速度,
将大维度表“雪花化”方法是: 1 . 按维属性的层次分解 维度的层次性体现在用户观察数据的 粒度不同。例如:在数据集市中,商品、商 品品牌、分类是商品的三个不同层次。客户 维中,客户、会员客户、分地域的客户是客 户的三个不同层次。 2 . 按维的属性类别分解 维属性之间有一些是互不关联的属性,
4 0 《商场现代化》2008 年 9 月(上旬刊)总第 550 期
数据集市需要保留最低层次的细节数 聚合、钻取、旋转等操作,并通过直观的方
据。以满足数据抽取、信息查询和数据挖掘 式从多个角度、多个侧面、多个层次及多种
的需要;另一方面,为提供决策支持,需要 数据综合程度对多维数据进行分析、比较,
多方面的高粒度的汇总数据。因此,需要把 并把结果用表格或图形方式显示给用户,
一个典型的星型模式包括一个大型的 事实表和一组逻辑上围绕这个事实表的维 度表。
事实表是星型模型的核心,事实表由 主键和度量数据两部分组成。星型模型中 各维度表主键的组合构成事实表的主键。 事实表中存放的大量数据,是同主题密切 相关的、用户最关心的度量数据。“销售”是 超市的主题,因此,在事实表中,要准确记 载各超市所有商品的销售数量、营业额、利 润等度量数据。
[关键词] 连锁超市 数据仓库 星型模型 雪花模型设计 雪花模型应用
信息技术的迅速发展和企业管理决策 的迫切需要,使数据仓库技术应运而生。
1993 年,数据仓库之父 W.H.lnmon 将数 据仓库定义为:“一个面向主题的、集成的、 随时间变化的、非易失性的数据集合,用以 支持管理层的决策”。数据仓库的概念,决 定了数据仓库特有的数据组织模式和广泛 的应用前景。
4 1 《商场现代化》2008 年 9 月(上旬刊)总第 550 期
( 1 ) 星型模型是非规范化的,星型模型 以增加存储空间为代价来提高多维数据的 查询速度,造成很大的数据冗余;非规范化 的、含有大量冗余的维度表,会使数据切片 变得更加复杂。
( 2 ) 由于星型模型中各维度表主键的组 合构成事实表的主键。当星型模型的维不 能满足要求时,维的变化是非常复杂、耗时 的。
“雪花模型”是针对星型模型存在的不 足和数据分析处理的需要,在星型模型的 基础上拓展而来的。将“星型模型”中的维 表规范化,对维度表、特别是大维度表的属 性按层次和类别进行分解,形成一些局部 的层次区域,就得到一个以事实表为中心 的“雪花模型”。
在连锁超市数据仓库的星型模型中, 客户维和商品维都是典型的大维度。这是 因为:大的连锁超市,客户维和商品维很 深,累计可能有数以万计的客户和上万种 商品;客户维和商品维很宽,根据需要,这 两种维可以有多个维度属性。
维度是观察事实、分析主题的角度。维 度表的集合是构建数据仓库数据模式的关 键。维度表通过主键与事实表相连。用户依 赖维表中的维度属性,从事实表中获取支 持决策的数据。围绕销售主题,连锁超市数 据仓库有以下典型的维度及其属性:
客户维:在客户维中,建立了客户的基 本信息、是否为会员客户、客户居住地域等 属性。
3.雪花模型在联机分析处理(OLAP)中 的应用
联机分析处理(OLAP)是基于数据仓库 的一种多维数据分析技术,是数据仓库的 重要应用。O L A P 从数据仓库中的某个特定 主题的集成数据出发,使用多维分析方法, 对客户端的请求,对数据进行切片、切块、
参考文献: [1]W.H.Inmon 著 王志海等译:数据仓 库[M].机械工业出版社,2003 [2]Paulraj Ponniah 著 段云峰等译:数据 仓库基础[M].电子工业出版社,2004 [3]Jiawei Han Micheline Kamber 著,范明,等 译.数据挖掘概念与技术[M].机械工业出版 社,2004 [4]平 静 林平瑞:元数据管理及其在 数据仓库中的应用[J].平原大学学报,2006 (8):130~132 [ 5 ]彭晓东: 基于数据仓库的综合决策 支持系统的设计研究[ j ] . 电脑开发与应用, 2003(6):11~20
商业研究
例如:商品的品牌和包装,是否为会员客 户,他们之间无层次关系。把维的属性类别 分解形成维的局部星型关系。
3 . 将非分析数据进行分离 维度表中的有些属性与事实表中的度 量数据无直接关系。例如:商品的详细信 息,大小、规格;会员客户的基本信息等。 将这些信息分离成一片“雪花”,使维表和 事实表尽量“精练”。提高了多维查询的速 度。当我们需要这些信息时,才到这片雪花 中查找。 总之,雪花模型要在星型模型的基础 上,描述出属性间清晰的层次和分类关系。 把图 1 所示的连锁超市数据仓库(集市)星 型模型“雪花”化,就得到该集市的雪花模 型。如图 2 所示。
表(n < = m )。所谓 n 度聚集,就是把 m 维事 钻时,只需要向 O L A P 工具提供相应的不同
实表中的 n 个维度提升到一定的层次,其余 粒度的聚集事实表即可。
的(m - n )维保持最低层次。这样生成的事
为了改善数据汇总查询的性能,可以
实表同相应衍生出的维表形成一个简明的 建立一个汇总表,将常用的全部聚集事实
数据模型是开发和构建数据仓库(集 市)的基础;是联机分析处理和数据挖掘的 重要条件。星型模型和雪花模型是基于关 系数据库的数据仓库的两种典型的数据模 型。目前,数据仓库星型模型已被广泛应 用。而雪花模型的实用价值还处在进一步 认识和开发阶段。
一、连锁超市数据仓库星型数据模型 “星型模型”是数据仓库广泛采用的数 据模型。它能准确、简洁地描述出实体之间 的逻辑关系。建立数据仓库的数据模型,一 般都是在对应用主题分析的基础上,首先 建立星型模型。现以超市数据仓库为例,认 识和理解数据仓库星型模型。
要针对 来自百度文库 L A P 和挖掘工具的需要,在两种模
式之间作出权衡和选择。使数据模型在数
据仓库的构建和应用中发挥出更好的作用。
图 4 连锁超市数据集市雪花模型三路聚焦 通过各种聚集,不仅满足了联机分析
处理和数据挖掘对各种数据粒度的要求, 更可喜的是,由于聚集产生的是结构简单 的星型模型,使星型模型的各种优势在这 里得到发挥。
连锁店维:各连锁店承担了全部商品 的销售业务。连锁店的服务质量直接影响 企业的竞争力、销售业绩和企业利润。连锁 店维中建立了连锁店名、所在地域等维度 属性。
根据分析主题和需求,建立连锁超市数 据仓库(集市)星型数据模型,如图 1 所示。
图 1 连锁超市数据集市星型模型 二、星型模型的优势和不足 1 . 星型模型的优势 星型模型在数据仓库中具有很大优势: ( 1 ) 星型模型围绕一个确定的主题,体 现了数据仓库对数据结构和组织的要求; ( 2 ) 星型模型简单、清晰的结构准确反 映了用户的需求,使用户易于理解; ( 3 ) 星型模型维度表包含了用户经常查 询和分析的属性,优化了对数据库的浏览, 在维度表和事实表之间没有任何“迷宫”。 使查询的过程变得简单而直接。 (4)星型模型为 OLAP 提供了良好的工作 条件,使 OLAP 能通过星型连接和星型索引, 显著提高查询性能。 2 . 星型模型的不足 星型模型也有明显的不足:
( 3 ) 维度属性的复杂形成的大维度问 题。大维度中的长文本字段占用存储空间, 维度数据不易更新和维护;向大维度表填 充数据难度增大;对事实表的查询涉及大 维度表时,会影响效率。
( 4 ) 当维的属性复杂时,处理维的层次 关系比较困难。
( 5 ) 对“多对多”关系,星型模型无能 为力。
三、连锁超市数据集市的“雪花模型” 设计
商业研究
超市数据仓库雪花模型的设计与应用
雷启明 乐山师范学院计算机科学与信息工程系
[摘 要] 以连锁超市数据仓库数据模型为典型案例,在分析星型模型的优势和不足的基础上,提出了把星型模型扩 展为雪花模型的基本方法。并通过聚集事实表等途径,使星型模型和雪花模型的特色和优势得到有效的应用。为数据仓库 的联机分析处理和数据挖掘奠定了基础。
系来处理。
总之,雪花模型提高了数据仓库应用
的灵活性。使系统进一步专业化和实用化。
五、结束语
图 3 连锁超市数据集市雪花模型二路聚集
星型模型和雪花模型是基于关系数据
库的数据仓库的两种典型的数据模型。星
型模型是雪花模型的原型,雪花模型是星
型模型的衍生。各有所长,各有特色。在实
际应用中,要对具体问题作出具体分析,还
商品维:商品不仅决定了超市的经营 范围,商品的结构、品牌、质量直接影响营 业额。在商品维中,设计了商品代码、商品 名称、商品类别、品牌名称、包装类别以及 商品的基本信息等维度属性。
时间维:在数据仓库的多维数据结构 中,时间维往往是不可少的一个维度。因为 每项“销售事实”都是在一定的时间或者时 间段内发生。针对需求,时间维采用日、月、 季、年四个属性。
使用频率高的汇总数据存放在聚集事实表 使用户了解数据背后蕴含的规律,以达到
中。雪花模型维度表清晰的层次关系为建 获取相关决策信息的目的。
立聚集事实表创造了条件。
雪花模型及以雪花模型为依托生成的
根据聚集的概念,在有 m 维的雪花模型 各层次的聚集事实表,为 O L A P 提供了良好
或星型模型中,可以建立多个 n 度聚集事实 的工作条件。例如,在对数据进行上钻或下
需求情况,在雪花模型中对客户维、商品维 弥补了雪花模型在查询速度方面的不足。
和时间维进行的三路聚集即可。如图 4 所示。
4 . 雪花模型在多对多关系处理中的应

在实际的问题中,数据仓库的数据会
出现“多对多”的关系。多对多关联不可能
在星型模式中实现。但可通过雪花模型将
“多对多”的关系转化成多个“一对多”关
相关文档
最新文档