第二章数据仓库开发模型
数据仓库开发模型12
维度表
维度表
事实表
维度表
详细类别表
维度表
维度表
详细类别表
图2.7 雪花模型的结构示意图
time
time_key day day_of_the_week month quarter year
branch
branch_key branch_name branch_type
Measures
Sales Fact Table time_key item_key branch_key
实例:P95、P96
2.2.2 规范的数据模型
表2-1 数据仓库的数据与普通的数据库系统的数据之间的对比
数据仓库的数据 长期的框架 静态 数据通常是汇总的 特殊查询访问 定期更新 数据驱动
普通数据库系统的数据 短期的框架 快速变化 记录级的访问 标准查询访问 实时更新 事件驱动
2.2.3 星型模型
务概况的蓝图,包括整个组织系统中各个部门 的业务处理及其业务处理数据。
数据仓库与操作型数据库一样,也存在高
层模型(ERD,实体关系层)、中层模型
(DIS,逻辑层)和低层模型(物理层)3个层
次数据模型。
财务部门
销售收入帐 应收帐 应付帐 成本帐
销售计划 销售合同 销售统计
销售部门
员工业绩记录 员工技能情况 员工薪酬表
2.4 数据仓库的物理模型
依据数据仓库数据量大但是操作单一的特点,可 以采取以下一些技术来进行数据仓库的物理数据 模型设计。
(1)合并表 (2)建立数据序列 (3)引入冗余 (4)表的物理分割 (5)生成派出数据 (6)建立广义索引
2.5 数据仓库的元数据模型
元数据是关于数据、操纵数据的进程和应用程 序的结构和意义的描述信息,其主要目标是提供 数据资源的全面指南。其范围可以是某个特别的 数据库管理系统中从现实世界的概念上的一般概 括,到详细的物理说明。
数据仓库.ppt
•
为了把现实世界中的具体事物抽象、组 织为某一数据库管理系统支持的数据模型, 人们常常首先将现实世界抽象为信息世界, 然后将信息世界转换为机器世界。也就是 说,首先把现实世界中的客观对象抽象为 某一种信息结构,这种信息结构并不依赖 于具体的计算机系统,不是某一个数据库 管理系统(DBMS)支持的数据模型,而是 概念级的模型,称为概念模型。
• 作为传统的业务处理系统的开发,在其开发分析 中需要明确业务处理的具体功能,即系统的开发 是基于功能驱动的,数据仓库开发人员在数据仓 库形成与应用之前是不可能了解数据仓库的功能 的。因此,无法采用功能驱动开发方法进行数据 仓库的开发,但是,数据仓库的开发人员可以在 数据仓库开发之前通过数据仓库的需求分析,了 解数据仓库用户的大致需求,即在决策过程中需 要什么信息。这样,就可以界定一个数据仓库的 大致系统边界,集中精力进行主要部分的开发。 因而,界定边界的工作也可看作是数据仓库系统 设计的需求分析,因为它将决策者的数据分析的 需求用系统边界的定义形式反映出来 。
• 逻辑建模是数据仓库实施中的重要 一环,因为它能直接反映出业务部 门的需求,同时对系统的物理实施 有着重要的指导作用,它的作用在 于可以通过实体和关系勾勒出企业 的数据蓝图。
• 在数据仓库的逻辑结构中,数据表可以划 分为两类:一类是事实数据表(简称为 “事实表”),用来存储数据仓库中的实 际数据,如这里存储1998年销售数据的 sales_fact_1998表即为事实表;另一类是 维度数据表(简称为“维度表”),用来 存储数据仓库中的维度数据,如关于时间、 促销手段和产品等分析要素的表均为维度 表。
数据仓库的概念模型和逻辑模型
数据仓库的概念模型
• 在概念模型的定义过程中需要确定系统的 范围以及所涉及的对象。模型的设计先要 明确所要构建的内容,设计模型的起点是 所选择的主题域。数据仓库是面向决策进 行分析的数据库,无法在数据仓库设计时 就确定用户明确而详细的需求,只有一些 基本的需求方向、基本的数据需求摆在设 计着面前:要做的决策有哪些?决策者感 兴趣的是什么问题?解决这些问题需要什 么样的信息?
数据仓库设计和数据模型的实现
数据仓库设计和数据模型的实现数据仓库是指企业或组织集成多个数据源,根据业务需求建立的一个集中存储、管理和分析数据的系统。
在数据仓库的设计和建模过程中,数据模型起到了关键作用。
本文将探讨数据仓库设计的关键要素以及数据模型的实现方法。
一、数据仓库设计要素数据仓库的设计是建立一个高效、灵活、可维护的系统,需要考虑以下几个关键要素:1. 数据源:识别和收集企业内部和外部的数据源,包括操作型数据库、文件、传感器和外部数据接口等。
应清楚数据源的格式、结构和存储方式。
2. 数据抽取和清洗:通过ETL(抽取、转换和加载)工具对数据源进行抽取和清洗。
这一步骤是将源数据整理成可用于数据仓库的格式。
3. 数据仓库模型:设计合适的数据模型是数据仓库设计的核心步骤。
常用的模型包括星型模型、雪花模型和事实表-维度模型等。
合理选择数据模型可以提高数据查询和分析的效率。
4. 元数据管理:元数据是描述数据的数据,用于管理和理解数据仓库中的数据。
元数据管理需要定义元数据的结构和管理方法,以支持数据的查询、分析和维护。
5. 数据存储和索引:在数据仓库中,数据的存储和索引策略对查询和分析的性能有着直接的影响。
常用的存储方式包括关系型数据库、列式数据库和NoSQL数据库等。
6. 数据安全和权限控制:由于数据仓库中存储了企业重要的数据,安全和权限控制是必不可少的。
需要采取措施保护数据的机密性、完整性和可用性,并对用户进行权限的控制和管理。
二、数据模型的实现方法数据模型是数据仓库设计的核心,合理选择数据模型有助于提高数据查询和分析的效率。
以下是几种常用的数据模型及其实现方法:1. 星型模型:星型模型是最常用的数据模型之一,它由一个中心的事实表和多个维度表组成。
事实表记录了业务事实的度量指标,维度表包含了与事实表相关的维度信息。
星型模型使用简单,易于理解和查询。
2. 雪花模型:雪花模型是在星型模型的基础上进一步细化和扩展的模型。
维度表可以继续细分为多个维度表,形成更复杂的层次结构。
第2章 数据仓库开发模型
连接索引B
2.4.3 数据仓库物理模型的优化问题
1.合并表:几个表的记录分散存放在几个物理块中时,多个表的 合并表:几个表的记录分散存放在几个物理块中时, 合并表 存取和连接操作的代价会很大. 存取和连接操作的代价会很大. 2.建立数据序列:按照某一固定的顺序访问并处理一组数据记录 建立数据序列: 建立数据序列 将数据按照处理顺序存放到连续的物理块中,形成数据序列. .将数据按照处理顺序存放到连续的物理块中,形成数据序列. 3.引入冗余:一些表的某些属性可能在许多地方都要用到,将这 引入冗余: 引入冗余 一些表的某些属性可能在许多地方都要用到, 些属性复制到多个主题中,可以减少处理时存取表的个数. 些属性复制到多个主题中,可以减少处理时存取表的个数. 4.表的物理分割:每个主题中的各个属性存取频率是不同的.将 表的物理分割: 表的物理分割 每个主题中的各个属性存取频率是不同的. 一张表按各属性被存取的频率分成两个或多个表, 一张表按各属性被存取的频率分成两个或多个表,将具有相似访 问频率的数据组织在一起. 问频率的数据组织在一起. 5.生成派出数据:在原始数据的基础上进行总结或计算,生成派 生成派出数据: 生成派出数据 在原始数据的基础上进行总结或计算, 出数据,可以在应用中直接使用这些派出数据,减少I/O次数, 次数, 出数据 ,可以在应用中直接使用这些派出数据 , 减少 次数 免去计算或汇总步骤,在更高级别上建立了公用数据源, 免去计算或汇总步骤,在更高级别上建立了公用数据源,避免了 不同用户重复计算可能产生的偏差. 不同用户重复计算可能产生的偏差.
RAID1级. RAID2级. RAID3级. RAID4级. RAID5级.
2.4.2 数据仓库物理模型的索引构建
位图索引
女性索引 0 1 1 0 1 0 0 1 1 0 1 客户性别 男 女 女 男 女 男 男 女 女 男 女 客户所在地 北京市 江苏省 北京市 山东省 北京市 上海市 江苏省 上海市 北京市 浙江省 广东省 上海市索引 0 0 0 0 0 1 0 1 0 0 0 北京市索引 1 0 1 0 1 0 0 0 1 0 0
数据仓库-维度模型(模型类型、建模过程)
数据仓库-维度模型(模型类型、建模过程)数据仓库-维度模型描述Dimensional Modeling,简称DM,是⼀套技术和概念的集合,⽤于数据仓库设计核⼼概念事实表⽰对业务数据的度量通常是数字类型的,可以进⾏聚合和计算维度对观察数据的⾓度⼀组层次关系或描述信息,⽤来定义事实举例:销售⾦额是⼀个事实,⽽销售时间、销售的产品、购买的顾客、商店等都是销售事实的维度。
维度模型按照业务流程领域即主题域简历,例如进货、销售、库存、配送等。
不同的主题域可能共享某些维度,为了提⾼数据操作的性能和数据⼀致性,需要使⽤⼀致性维度,例如⼏个主题域间共享维度的复制。
特点易理解相对于规范化的关系模型,维度模型容易理解且更直观。
在维度模型中,信息按业务种类或维度进⾏分组,这回提⾼信息的可读性,也⽅便了对于数据含义的理解。
关系模型中,数据被分布到多个离散的实体中,对于⼀个简单的业务流程,可能需要很多表联合在⼀起才能表⽰。
⾼性能维度模型更倾向于⾮规范化,因为这样可以优化查询的性能。
关系模型规范化的实质是减少数据冗余,以优化事务处理或数据更新的性能。
维度设计的整体观点是要简化和加速查询。
可扩展由于维度模型允许数据冗余,因此当向⼀个维度表或事实表中添加字段时,不会像关系模型那样产⽣巨⼤的影响,带来的结果就是更容易容纳不可预料的新增数据。
这种新增可以是单纯地向表中增加新的数据⾏⽽不改变表结构,也可以时在现有表上增加新的树形。
基于数据仓库的查询和应⽤不需要过多改变就能适应表结构的变化,⽼的查询和应⽤会继续⼯作⽽不会产⽣错误的结果。
但是对于规范化的关系模型,由于表之间存在复杂的依赖关系,改变表结构前⼀定要仔细考虑建模过程选择业务流程确认哪些业务处理流程是数据仓库应该覆盖的,是维度⽅法的基础例如,需要了解和分析⼀个零售店的销售情况,那么与该零售店销售相关的所有业务流程都是需要关注的。
声明粒度⽤于确定事实中表⽰的是什么,在选择维度和事实前必须声明粒度,因为每个候选维度或事实必须与定义的粒度保持⼀致。
数据仓库设计与建模的数据仓库架构演进过程(二)
数据仓库设计与建模的数据仓库架构演进过程数据仓库的建设和设计是企业在实现数据驱动决策过程中的重要一环。
随着业务需求的不断变化和技术的不断发展,数据仓库架构也在不断的演进和调整。
本文将从历史演进的角度,探讨数据仓库架构的发展过程,帮助读者更好地理解数据仓库的设计与建模。
1. 初期数据集市架构在数据仓库建设的初期阶段,数据集市架构是最常见的一种形式。
数据集市是指由不同的业务部门或功能部门构建的数据仓库,每个部门独自负责数据的收集和管理。
这种架构的优势在于能够满足不同部门的特定需求,但缺点在于数据的一致性和集成性较差。
2. 集中式数据仓库架构为了解决数据一致性和集成性问题,集中式数据仓库架构逐渐兴起。
这种架构方式将企业各个部门的数据集中存储到一个单一的数据仓库中,通过数据整合和清洗,提供一致性和集成性更好的数据服务。
集中式数据仓库架构能够满足企业整体性的数据需求,但也面临着规模扩展和性能问题。
3. 分布式数据仓库架构随着数据量的不断增大和业务需求的复杂化,集中式数据仓库架构逐渐暴露出瓶颈。
为了更好地应对大规模数据的处理和分析,分布式数据仓库架构得以发展。
在分布式架构中,数据仓库被拆分为多个节点,每个节点负责一部分数据的存储和处理,通过数据的分片和分布式计算,实现更好的扩展性和性能。
4. 数据湖架构数据湖是数据仓库架构的一种新兴形式,它主要强调数据的原始保存和存储,将各类数据源以原始的形式存放在数据湖中。
数据湖的优势在于可以存储海量和多样化的数据,并且能够灵活地进行分析和挖掘。
然而,数据湖架构也面临着数据质量和数据管理的挑战。
在数据仓库架构的演进过程中,技术的发展起着重要的推动作用。
传统的关系型数据库逐渐被大数据技术所取代,例如Hadoop和Spark 等。
这些大数据技术具备分布式计算和存储的能力,能够更好地处理大规模数据的存储和分析需求。
此外,人工智能和机器学习技术的发展,也为数据仓库的架构演进带来了新的可能性。
数据仓库常见建模方法与建模实例演示
引言:数据仓库是一个用来存储、整合和管理组织中各种类型数据的集中库,为决策支持和业务分析提供数据基础。
在数据仓库建设过程中,数据建模是一个至关重要的步骤,它决定了数据仓库的架构、数据的组织方式以及数据的查询效率。
本文将介绍数据仓库的常见建模方法,并通过实例演示来加深理解。
概述:数据仓库建模主要包括维度建模和标准化建模两种方法。
维度建模侧重数据的分析和查询,采用星型或雪花型模型,标准化建模侧重数据的存储和管理,采用三范式模型。
下面将对这两种方法进行详细阐述。
正文内容:一、维度建模1. 星型模型- 星型模型是一种常见的维度建模方法,它以一个中心事实表为核心,围绕着多个维度表构建关系。
这种模型简单直观,适用于多维分析和查询操作。
- 实例演示:我们以零售业为例,事实表为销售订单表,维度表包括产品维度、时间维度和地区维度。
通过星型模型,可以方便地进行销售额、销售量等指标的分析和查询。
2. 雪花型模型- 雪花型模型是在星型模型的基础上进行维度表的归一化,并使用多层级的维度表来表示更复杂的关系。
这种模型适用于维度之间有多级关系的情况。
- 实例演示:在健康保险领域,事实表为理赔表,维度表包括疾病分类维度、医院维度和地区维度。
通过雪花型模型,可以灵活地进行疾病的统计分析,如特定疾病在特定地区的就医情况。
3. 硬度建模- 硬度建模是一种将维度直接存储在事实表中的建模方法,它减少了维度表和事实表之间的连接,提高了查询效率。
这种模型适用于维度表较小且不经常发生变化的情况。
- 实例演示:在人力资源管理中,事实表为员工绩效表,维度信息包括员工姓名、所属部门、入职日期等。
通过硬度建模,可以快速地查询某个员工的绩效数据和所属部门的平均绩效数据。
二、标准化建模1. 第一范式- 第一范式是一种最基本的标准化建模方法,要求每个字段的值不可再分,即每个字段都是不可再分的最小单元。
这种模型适用于简单的存储和管理需求。
- 实例演示:在物流管理中,需要存储和管理货物的基本信息,如货物名称、货物数量、货物重量等。
数据治理及数据仓库模型设计-02
收集数据标准化的对象
表定义书 & 编码定义书标准元数据表定义书
编码定义书
标准 源信息
ERD & DB样本信息 书籍/报告书 & 人物采访
ERD
DB样本 信息
书籍 报告书
人物 采访
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
怎样定制标准单词——词素拆分
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
怎样定制标准单词——单词词典的制定
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
法律声明
【声明】本视频和幻灯片为炼数成金网络课程的教学资料
,所有资料只能在课程内使用,不得在课程以外范围散
通常情况下,单词英文缩写的使用次序: 国际英文惯例 > IT系统常用的英文缩写 > 项目中商定的英文缩写的规则
•同义词是指多个不同的单词、但是表达相同的业务含义。 •选定具有代表性的单词后将其定义为标准单词,以后在只使用标准单词,禁止使用其同义词。未 来新的建模过程中,申请的实体名(表中文名)、属性名(字段中文名)如果包含了同义词,那么标 准化审批环节,需要提示错误、并强制将同义词转换为标准单词——这个审批和检查环节,可以由 软件来进行。
词素拆分通常会在excel模板中进行。首先为参与工作的人员讲解如何判别词素,之后由工作人员分工操作、分别进行词素拆分。之后大
家分工的词素拆分成果,要把词素合并在一起整合、再讨论和确认。
DATAGURU专业数据分析社区
数据治理及数据仓库模型设计 讲师 郑保卫 孙斌
第二章数据仓库的技术与开发hymPPT课件
数据集市的分类
• 独立的数据集市 • 从属的数据集市
28
数据源 数据源 数据源
独立的数据集市
独立 数据集市
独立 数据集市
应用工具 应用工具 应用工具
• 如果一个数据集市 不依赖于中央数据 仓库,则这个数据 集市为独立数据集 市。
• 独立数据集市可能 会造成各数据集市 中的数据不一致、 形成信息孤岛、维 护困难等问题。
• 数据集市的概念 • 数据集市的分类
23
数据集市
• 数据集市的概念 • 数据集市的分类
24
数据集市的概念
• 数据集市我们可以把它理解成为部门级 的数据仓库
• 数据仓库是数据集市的集合
25
数据集市
• 数据集市的概念 • 数据集市的分类
26
数据集市的分类
• 独立的数据集市 • 从属的数据集市
27
• 这就是多维数据模型
61
概念建模的方法
• 传统方法——ER图 • 缺点 • 多维数据模型(星型模型)
➢维度 ➢事实度
62
多维数据模型(星型模型)
• 它是一种能够清楚表达分析领域的数据模型。 • 它包括两种建模要素: • 观察事物的角度---维度 • 观察得到的事实数据---事实
维度1
维度2
事实
➢维度 ➢事实度
58
传统方法——ER图
供应商
客户
产品
订单
发货
• 从数据模型的角度 看,所有实体之间 的关系是对等的。
• 但是实际上数据仓 库的实体绝不会是 相互对等的。
59
概念建模的方法
• 传统方法——ER图 • 缺点 • 多维数据模型(星型模型)
➢维度 ➢事实度
数据仓库的概念模型设计模型定义
数据仓库的概念模型设计模型定义数据仓库是指存储和管理企业各种数据的一个集中化的、数据驱动的系统。
它旨在为企业决策提供可靠、一致和高效的数据支持。
数据仓库的概念模型设计是指设计数据仓库的基本结构和组织方式,以便满足企业的需求。
1.数据源:数据仓库的数据源可以包括内部和外部的数据源。
内部数据源包括企业内部的各种事务性系统,如企业资源计划(ERP)系统、客户关系管理(CRM)系统等。
外部数据源可以是第三方数据供应商提供的数据,如市场研究报告、竞争对手的数据等。
2.数据抽取和清洗:数据仓库需要从不同的数据源中抽取数据,并进行清洗和转换。
数据清洗是指对数据进行校验、去重、格式化等操作,确保数据的准确性和一致性。
数据转换是指将数据从不同的格式转换为统一的格式,以便于在数据仓库中进行分析和查询。
3.数据存储:数据仓库需要设计合适的数据存储结构,以便于高效地存储和查询大量的数据。
常见的数据存储结构包括维度模型和星型模型。
维度模型是以事实表和维度表为核心的模型,事实表记录了与业务过程相关的指标数据,维度表记录了与事实表相关的维度信息。
星型模型是一种特殊的维度模型,只有一个事实表和多个维度表,事实表与维度表之间是一对多的关系。
4.数据访问和查询:数据仓库需要提供灵活、高效的数据访问和查询功能,以满足不同用户的需求。
常用的数据查询方式包括在线分析处理(OLAP)、数据挖掘和数据报表等。
OLAP是一种多维分析技术,可以对数据进行多维度的查询和分析;数据挖掘是一种从数据中发现隐藏模式和知识的技术;数据报表是一种以表格和图形的形式展示数据的方式。
5.数据质量管理:数据仓库的数据质量对于企业的决策和分析至关重要。
因此,数据仓库需要建立数据质量管理机制,包括数据验证、数据清洗、数据修复和数据监控等。
数据验证是指对数据进行合法性和完整性的校验,数据清洗是指对数据进行格式化和去重,数据修复是指对数据进行错误修复和补充,数据监控是指实时监控数据的变化和质量。
数据仓库建模ppt课件
数据仓库数据模型架构
业务数据存储区, 数据模型在 这里保证了 数据的一致 性
内部管理的元数 据,数据模 型帮助进行 统一的元数 据的管理
系统记录域的汇总, 数据模型保 证了分析域 的主题分析 的性能,满 足了部分的 报表查询。
内部资料,注意保密
具体的主题业务分 析,数据模型 可以单独存储 在相应的数据 集市中。
内部资料,注意保密
三范式的原子层+数据集市
内部资料,注意保密
三范式原子层+数据集市特点
通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,例如 客户、供应商、产品等等。每个主题区域仅仅包含该主题相关的信息。
数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时, 应该创建以数据仓库为来源的数据集市。换言之,某个特定数据集市 中的所有数据都应该来自于面向主题的数据存储。
内部资料,注意保密
数据仓库模型(Data Warehouse Model)
数据仓库模型是数据模型中针对特定的数据仓库应用 系统的一种特定的数据模型
数据仓库模型起到了指导或计划数据仓库实现的作用。 在真正的实现开始之前,联合每个业务领域的数据模 型可以帮助确保其结果是有效的数据仓库,并且可以 帮助减少实现的成本。
在三范式的原子层上定义ROLAP比在星型结构的原子层上定义ROLAP要 复杂很多。采用这种架构需要在定义ROLAP是多下些功夫,而且ROLAP 的元数据不一定是通用的格式,所以对ROLAP做展现很可能会受到工 具的局限。
这类架构和第一类很相似,只是少了原子层上的数据集市
内部资料,注意保密
选择合适的数据仓库架构
内部资料,注意保密
高层建模
实体和关系
实体:人,地点,物,事件以及任何包含业务活动数 据的概念。
2、数据仓库设计.ppt
•约束
尽量使用约束,以确保数据的完整性。 正确的数据所带来的益处会远远大于ETL性 能的损失。
设计索引策略——创建索引
• 创建索引用以提高查询速度 • 避免索引对ETL的不良影响
设计存储策略——创建分区
分区存储后的数据单元 易于:
– 重构 – 索引 – 重组 – 恢复 – 监控
– 一对多联系(1:n) 如果A实体集中的每个实体可以和B中的几个实体有联系,而B中 的每个实体至我和A中的一个实体有联系,那么A对B属于1:n联 系。
– 多对多联系(m:n) 若实体集A中的每个实体可与和B中的多个实体有联系,反过来, B中的每个实体也可以与A中的多个实体有联系,称A对B或B对A 是m:n联系。
• 事实表总会是很大的,在维度表上节省的空间相 对来说是很小的
• 增加了数据模型的复杂度 • 查询操作概念上更复杂了 • 从数据仓库到多维数据库的加载时间会更长 • 因此,只有当维度表极大,存储空间是个问题时,
才考虑雪花型维度 • 简而言之,最好就用星型维度即可
支持雪花型维度的论点
• 从数据仓库到多维数据库的加载过程中, 雪花型维度的效率更高。
数据仓库模型设计采用迭代式开发,这一点也符合数据仓库 系统迭代开发的特点。它具有较好的灵活性和易变性,适应 于主题不明确或不确定的需求。
8
概念设计
数据仓库是面向主题来组织 数据,一个数据仓库有若干个主题, 而每个主题又有一个数据集合体做 支撑,这个数据集合称为主题域。
概念设计的中心工作是在需 求分析基础上设计的主题域模型。 主体域模型是客观到主观之间的桥 梁,是与硬件环境、软件选择无关 的数据抽象模型,是为下一步建立 业务数据模型、物理模型服务的概 念性工具。
数据仓库模型设计
定期对分区进行整理和优化,以提高查询性能和数据 管理效率。
分区合并与分裂
根据数据量和查询需求的变化,适时进行分区合并与 分裂操作。
数据压缩
压缩算法
选择合适的压缩算法,如LZ77、Huffman编码 等,以减少存储空间和提高数据传输效率。
压缩策略
根据数据特点和业务需求,制定合适的压缩策 略,如按列压缩、按行压缩等。
数据仓库模型设计
contents
目录
• 数据仓库概述 • 数据仓库模型设计基础 • 数据仓库模型设计实践 • 数据仓库性能优化 • 数据仓库的扩展性 • 数据仓库的安全性和可靠性
01
数据仓库概述
数据仓库定义
数据仓库是一个大型、集中式、长期 存储系统,用于存储和管理企业数据。
它为企业提供了一个集中的数据视图, 支持决策支持系统和数据挖掘应用。
雪花模型
将维度表进一步细分,形 成层次结构。适用于复杂 查询,但性能较差。
星座模型
结合星型和雪花模型的特 点,以两个事实表为中心, 分别连接不同的维度表。 适用于特定业务场景。
设计维度和度量
维度设计
根据业务需求,确定需要的维度,如 时间、地点、产品等,并定义维度属 性。
度量设计
根据业务需求,确定需要的度量,如 销售额、库存量、成本等,并定义度 量的计算方式。
设计事实表
确定事实表类型
根据业务需求和数据特点,选择合适的事实表类型,如事务型、周期快照型、累积快照型等。
设计事实表结构
定义事实表的列、数据类型、约束等,确保能够准确记录业务活动。
数据粒度设计
确定粒度级别
根据业务需求和数据特点,选择合适的粒度级别,如天、小时、分钟等。
数据仓库的数据模型与数据组织(40P)
区(880) 商店(2000)
指标和事实:
预测销售量、实际销售量、预测偏差
2020年8月20日星期四
Data Mining: Concepts and Techniques
9
A Concept Hierarchy: Dimension (location)
all region
all
Europe
...
location_key units_sold
dollars_sold avg_sales
item
item_key item_name brand type supplier_type
location
location_key street city province_or_street country
Measures
2020年8月20日星期四
Sales Fact Table
time_key item_key
branch_key
item
item_key item_name brand type supplier_type
Shipping Fact Table
time_key item_key
shipper_key from_location
Data Mining: Concepts and Techniques
11
星型图模型(逻辑模型)
〖例〗销售分析的星型图模型。
产品维 地区维
时间维
销售分析:
实际销售 预测销售 预测偏差
组别维 其他维
2020年8月20日星期四
Data Mining: Concepts and Techniques
12
更详细的 技术细节
数据仓库模型开发流程
2019/12/14
Step 1:数据需求分析
Entry
数据需求分析
现有模型满足度 及差异分析
模型验证及调优
源系统分析
模型实施 逻辑模型物理化
逻辑模型设计
过程的入口 需求发起的方式
应用驱动 数据驱动 模型优化
2019/12/14
Step 2:模型满足度及差异分析
Entry
数据需求分析
现有模型满足度 及差异分析
源系统资料的学习 业务培训 业务专家的交流 字段级的分析 取舍的策略 定期更新源系统分析报告
2019/12/14
Step 4:逻辑模型设计
Entry
数据需求分析
现有模型满足度 及差异分析
模型验证及调优
源系统分析
模型实施 逻辑模型物理化
逻辑模型设计
2019/12/14
逻辑模型的实体、属性的 设计
数据仓库模型开发流程
Tony
2019/12/14
模型建设范围
A区
M区汇总层 B区模型层
S区
数 据 源
2019/12/14
数据仓库
ODS
•最终用户
•内部集市 •外部集市
•面向业务分析主题 •汇总数据 •Star Schema 建模 •视图
•逻辑数据模型 •保留详细交易数据 •面向关键主题域
•3NF
HAIER-LDM
逻辑模型设计
2019/12/14
Step 7:模型验证及调优
Entry
数据需求分析
现有模型满足度 及差异分析
模型验证及调优
源系统分析
准备工作
数据情况统计、生产运行 日志的分析
模型优化的方面
第二章数据仓库开发模型
CH2
维实体
主要用于对实体的过滤和重新组织,可 将用户的查询结果按维指标进行筛选,可在 指标实体之间以及指标实体与详细类别实体 之间建立联系,使用户对DW的使用更轻松。
其主要特性:访问并过滤指标实体;是 非标准实体(含完整的维体系编码、关键词 及相关运算);引导用户及进行查询分析等 等。
CH2
详细类别实体 与现实世界的某一实体(一个客户/一个
第二章 数据仓库开发模型
DW的设计是一个复杂的过程:现实环境 →抽象模型→具体实现。上述过程实现的期 间,使用了诸多的数据模型,……
§1 引言
§2 概念模型 §3 逻辑模型
§4 物理模型 §5 元数据模型
§6 粒度模型 §7 聚集模型
CH2
§1 引言 创建DW时,需用各种数据模型对DW进行
描述。DW的开发者依据这些数据模型,才能 开发出一个满足用户需求的DW。
产品/一个销售点)对应,为用户提供更为详 细的分析数据。
其主要特性为:含参考数据及有助于完 成指标数据职能的支持信息;与事务结构有 映射关系;是标准的数据结构;数据量比指 标实体少,比维实体多。
CH2
② 反规范化处理
业务处理系统中的数据库设计,是以规 范化数据模型为目标的,如,RDBMS中的3NF 等,规范化数据模型具有存储的高效性和灵 活性的特点。
CH2
➢ 客户交易事实表
商品交易情况表(账号 int 9,商品编号 ch 10, 交易量 r 10.2,交易时间 date 8,……)
服务交易情况表(账号 int 9,服务时间 date 8, 服务编号 int10,服务费用,……)
➢ 客户反馈记录表
客户反馈记录表(账号 int 9,反馈类型 ch 5, 反馈内容 memo,记录人 ch 8,……)
数据仓库搭建流程及数据模型
数据仓库搭建流程及数据模型建模流程业务建模根据业务部门进⾏划分,理清部门之间的关系,然后将各个部门的具体业务程序化,与业务部门开会协商出需求的指标、保存年限、维度等等。
总体来讲,就是要知道他们需要哪些指标以及他们能提供哪些数据。
业务建模的时间最长,⽽且与公司实际的业务环境息息相关,因此在这⾥需要根据实际⽣产环境和业务需求确认好数据仓库使⽤的⼯具和平台。
概念建模将业务模型抽象化,分组合并类似的概念,细化概念,抽象出实体与实体之间的联系,理清各组概念之间的联系。
说⽩了就是画图,把指标需要的哪些数据封装到⼀个实体⾥,实体与实体之间的关联等等⽤ER图表⽰出来。
先画出局部ER图,最后再综合画出全局ER图。
逻辑建模将概念模型实体化,具体考虑概念对应的属性,事件考虑事实属性,维度考虑维度属性。
总体来说就是建表,前⾯已经画出了关系图,这⾥只要将表⾥头有哪些字段考虑出来就可以,如果是事实表就考虑事实字段和业务主键,如果是维度表就考虑维度属性,SCD策略等等。
在这⾥需要确定数据粒度,如果多个指标都⽤到⼀个字段,则取粒度最⼩的指标。
如果不确定指标的量度,则取毫秒级作为粒度。
物理建模综合现实的⼤数据平台、采集⼯具、etl⼯具、数仓组件、性能要求、管理要求等多⽅⾯因素,设计出具体的项⽬代码,完成数仓的搭建。
7.4.2 数据模型星型模型数仓(具体说是dwd层)中只有⼀张包含历史数据且不冗余的事实表和⼀组附属维度表,每个维度⼀张。
事实表与维度表之间通过外键和主键关联。
星型模型的维度表可能存在冗余,因此是反三范式的,这种模型在数据维护上较⿇烦,但是性能更⾼,业界普遍使⽤星型模型。
星型模型的难点在于拉链表的维护,拉链表⼀般不能有冗余。
雪花模型针对星型模型的维度表进⾏扩展的模型,将维度表拆解成维度表+说明表,说明表⼜可以进⼀步拆分,最终形成事实表-维度表-说明表的多次连接。
雪花模型的表⼀般遵循三范式,在数据的维护上会很⽅便,但是多表join影响性能。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
来描述 ——高层模型(E-R图)、中层模型
(逻辑层)和底层模型(物理层)。但要注
意两者之间的差异:
➢ 数据类型的差异
DW中不包含操作型数据,只包含用户感
兴趣的分析数据(如,商品的销量、企业的
利润等)、描述数据(如,销售时间、地点)
第二章数据仓库开发模型
以及细节数据(如,所销售商品的详情、客 户详情等)。 ➢ 数据的历史变迁性
第二章数据仓库开发模型
•CH
进而,实际应
2
用中,会有大量数
据载入订单实体,
其他实体只有少量
数据载入——因此
需要一种有别于传
统ER图的数据模型
来描述某个实体需
载入大量数据的结
构——星形模型就是这样的模型之一。
第二章数据仓库开发模型
•CH
一个星形模型包含一个对应于某个主题 2 的事实表和若干个非正规化描述事实的维表。 星形模型具有以下特性:
•CH
§3 逻辑模型
2
逻辑模型是三层模型中的中层模型,它
是对高层模型(概念模型)的细化,如下图。
第二章数据仓库开发模型
•CH
① 逻辑模型的基本结构
2
逻辑模型有四种基本结构:基本数据组、
二级数据组、连接数据组和类型数据组。
第二章数据仓库开发模型
•CH
基本数据组
2
其中存在着唯一的主要主题域。基本数 据组在每个主题域中只出现一次,包含属性 和键码。
最近信用发生时间 date 8,……)
第二章数据仓库开发模型
•CH
B.事实表中的事实特性
2
➢ 事实指标的可加性;
完全可加性,半可加性,非可加性
➢ 派生事实
可加性的派生事实,不可加性的派生事实
总之,事实表是DW中的最大表,要尽可 能设计得小(思考:哪些方法?),同时还 要考虑数据的精度和粒度。
第二章数据仓库开发模型
第二章数据仓库开发模 型
2020/12/10
第二章数据仓库开发模型
•CH
§1 引言
2
创建DW时,需用各种数据模型对DW进行
描述。DW的开发者依据这些数据模型,才能
开发出一个满足用户需求的DW。
为了使开发人员能够将注意力集中在数
据仓库开发的主要部分,模型要有很好的适
应性,更易于修改,且,当用户的需求改变
客户基本情况表(账号 int 9,姓名 ch 12,客户类型 ch 20, 初次交易时间 date 8,……)
客户变动情况表(账号 int 9,住址 ch 50,文化程度 ch 10, 电话 int 11,邮政编码 ch 6,……)
第二章数据仓库开发模型
•CH
➢ 客户交易事实表
2
商品交易情况表(账号 int 9,商品编号 ch 10,
称 述 式 据 系成 源 引 别
务
类
时
规
型
间
则
动态元数据
入更数统状处存存引
库新据计态理储储用
时周质信
位大处
间期量息
置小
第二章数据仓库开发模型
•CH
② 元数据的作用
2
A.元数据的重要性
➢ 导航(DW的使用);
➢ 描述并记录数据从业务系统的操作型
环境到DW的转换,以便利用其(灵活地、可
变地)管理数据的转换以及进行数据回溯等。
② 反规范化处理
2
业务处理系统中的数据库设计,是以规 范化数据模型为目标的,如,RDBMS中的3NF 等,规范化数据模型具有存储的高效性和灵 活性的特点。
数据仓库中,若仍采用规范化数据模型 的话,就会存在一系列“小”表,在进行大 量的数据处理时,会频繁地与这些小表进行 动态连接,从而产生大量的I/O操作。
第二章数据仓库开发模型
•CH
③ 星形模型
2
• 仅从概 念设计的角度 来看,右图给 出了一个简单 的ER图,其中 的•五个实体相互间是平等关系。 然而,从管理 决策的角度看,这五个实体绝对不会是“平 等关系”,例如,决策者真正关心的是“订 单”,其他实体(供应商、产品、客户等) 只是针对“订单”的诸多说明。
关维的一个点对应,是管理人员衡量业务好
坏及其处理难度的基础。
第二章数据仓库开发模型
•CH 2
随着时间的推移,以及数据仓库需求的 变化,指标实体中的数据量会日益膨胀,因 此,指标实体是数据仓库管理的重点。
其主要特性如下:是分析中心,提供基 本数据;包含多个数据访问路径;包含标准 数据;能扩充成很大的表——以容纳日益增 长的数据。
时,仅对模型做出相应的变化就能反映这个
改变。
第二章数据仓库开发模型
•CH 2
模型是对现实世界进行抽象的工具。 信息管理中,需要将现实世界的事物及 其有关特征转换为信息世界的数据才能对信 息进行处理与管理,这就需要依靠数据模型 作为这种转换的桥梁。 上述的转换一般需要经历从现实到概念 模型,从概念模型到逻辑模型,从逻辑模型 到物理模型的转换过程。
元数据是DW的重要构件,是DW的指示图。 一般,元数据的来源有: ➢ 数据源的元数据; ➢ 数据模型的元数据; ➢ 数据源与数据仓库映射的元数据; ➢ 数据仓库应用的元数据。
第二章数据仓库开发模型
•CH
① 元数据的类型与组成
2
元数据通常分为静态元数据和动态元数据
两类,其组成如下表所示:
静态元数据
名 描 格 数 关生 来 索 类 域 业
二级数据组
基本数据组中,有一组链接指向二级数 据组,表示主要主题域所具有的属性,有多 少个属性就有多少个二级数据组。
第二章数据仓库开发模型
•CH
连接数据组
2
用于本组主要主题域与其他主要主题域 间的关联,体现了概念模型中实体间的联系。 一般,它是一个主题的公共码主键。
类型数据组
用于指明数据的类型,主要有超类型和 子类型两种。
•CH
④ 维模型设计
2
维,是人们观察某个数据集合的特定角 度,是以对数据某个共性的提取为前提的。 例如,前例中,可设计出客户主题的维表模 型如下:
时间维表(年 date,月 date,日 date); 地点维表(省 ch 20,市 ch 20,县 ch 20,街道 ch 20); 交易维表(现金交易 ch 20,信用交易 ch 20)
➢ 管理数据,包括:粒度划分、数据分 割、索引;不同时期的数据内容及形式;主
题的增加及删除——这些管理工作均需在元
数据中有相应的描述。
第二章数据仓库开发模型
•CH
B.元数据在DW开发期间的作用
2
➢ DW的应用管理,比如,捕获数据转化、 净化、概括、聚集的规则(商业规则与处理
规则)等;
➢ 向用户提供大量的数据关系;
➢ 逻辑模型设计中,DW开发者关心的是DW结 构的完整性——数据仓库中的所有数据元素 都应该包含在逻辑模型中ຫໍສະໝຸດ —至于如何获取 数据,在此并不感兴趣。
第二章数据仓库开发模型
•CH
③ 事实表模型设计
2
A.事实表的设计
确定了中层模型之后,就要设计事实表
模型了。例如,根据上例,可以设计出以下
事实模型:
➢ 客户事实表
关于维的讨论,将在OLAP一章进行。
第二章数据仓库开发模型
•CH
§4 物理模型
2
•RAID是“Redundant Array
所谓物理模型,就o写f是,In中中de文p层e意n(d思en是逻t独D辑i立s)k冗”余模的磁缩型盘
(包括事实表和维表)阵的列。物理实现。具体包
括以下内容:
➢ 确定存储结构(一般用RAID);
第二章数据仓库开发模型
•CH
详细类别实体
2
与现实世界的某一实体(一个客户/一个 产品/一个销售点)对应,为用户提供更为详 细的分析数据。
其主要特性为:含参考数据及有助于完 成指标数据职能的支持信息;与事务结构有 映射关系;是标准的数据结构;数据量比指 标实体少,比维实体多。
第二章数据仓库开发模型
•CH
业务处理系统中,一般只包含当前数据 而不含历史数据;
数据仓库中,为了反映出组织的历史变 迁、业务的发展等,需要增加时间属性进行 描述(即把时间作为关键字的一部分)。
第二章数据仓库开发模型
•CH
➢ 数据的概括性
2
为了提高使用的性能,往往在数据仓库 中增加一些由基本数据导出的衍生数据,它
们在业务处理系统中是不存在的。
➢ 了解数据环境、数据的使用频度、使 用方式、数据规模以及响应时间要求等—— 平衡、优化时间和空间效率的重要依据;
➢ 了解外部存储设备的特性,如分块原 则,块大小的规定,设备的I/O特性等。
第二章数据仓库开发模型
•CH
§5 元数据模型
2
DW中元数据定义了许多对象——表、列、 查询、商业规则以及DW内部的数据转移等。
第二章数据仓库开发模型
•CH 2
反规范化处理,就是为了减少I/O次数而 把上述的诸多“小”表合并在一起的处理方 法。
可见, 反规范化处理是以增加数据的冗 余为代价来减少I/O次数的——由于数据仓库 中要进行海量的数据处理,因此,这种以 “空间换时间”的尝试,在数据仓库应用中 是值得的,也是易于被用户所接受的。
物的描述,包括:记号、内涵、外延,其中
记号和内涵(视图)最具实际意义。
和业务处理系统一样,数据仓库构建过 程中,也可以用E-R图来表示概念模型——这 样做的直接好处是,数据仓库与业务处理系 统能够得到很好的协调。
第二章数据仓库开发模型
•CH
① 改进的E-R图
2
与业务处理系统中的数据库概念设计一
样,数据仓库也可以用三个层次的数据模型
为此,对传统的E-R图进行了一些改进: