数据仓库逻辑模型介绍
数据仓库的逻辑模型
数据仓库的逻辑模型介绍
数据仓库是一种面向主题的、集成的、稳定的、不同时间的数据集合,用于支持管理决策过程。
逻辑模型是数据仓库的核心,它描述了数据仓库中数据的组织和存储方式,以及数据仓库的结构和功能。
本文将介绍数据仓库的逻辑模型,包括数据仓库的数据源、数据存储、数据集市和数据访问。
一、数据源
数据仓库的数据源可以是多种类型的,包括关系数据库、OLAP 数据库、文件系统、外部数据源等。
不同的数据源具有不同的特点和优势,需要根据实际情况选择合适的数据源。
二、数据存储
数据仓库的数据存储是指将数据源中的数据加载到数据仓库中,并对数据进行处理和转换,以满足数据仓库的需求。
数据存储通常采用分布式存储架构,以支持大量数据的存储和查询。
三、数据集市
数据集市是数据仓库中面向特定主题的数据集合,它将数据仓库中的数据按照业务需求进行分类和组织。
数据集市通常包括多个表,每个表代表一个主题,例如销售、客户、产品等。
数据集市中的数据可以根据业务需求进行查询和分析。
四、数据访问
数据访问是指数据仓库中的数据如何被访问和使用。
数据仓库的数据访问通常采用OLAP(联机分析处理)和数据挖掘技术。
OLAP技术支持用户对数据仓库中的数据进行快速查询和分析,数据挖掘技术则可以帮助用户从大量数据中发现有价值的信息和规律。
总之,数据仓库的逻辑模型是数据仓库的核心,它描述了数据仓
库中数据的组织和存储方式,以及数据仓库的结构和功能。
数据仓库的数据源、数据存储、数据集市和数据访问是数据仓库逻辑模型的重要组成部分,它们共同构成了一个完整的数据仓库系统。
数据库的逻辑模型
在数据库设计中,逻辑模型作为关键一环,不仅明确了数据的组织构架和关联性,还制定了其完整性的限制,为构建物理模型提供了参考框架。
逻辑模型不仅专注于数据保存的具体步骤,它更为重视数据间的逻辑联系和商业规则。
在设计逻辑模型的过程中,我们最初是识别出一些商业实体。
这些实体通常与实际世界中的其他对象或概念相关,例如“用户”和“订单。
每一个实体都携带一组特性,这些特性描述了一个实体的特点,例如“用户名”或者“订单号码”等等。
实体间的相互关系,无论是单对一、双对多还是多重对多,都在逻辑模型中被明确阐述。
逻辑模型不仅仅是指实体和关系,还涵盖了对数据完整性的具体定义。
这确保了各实体的完整性,也就是说,每个实体的基本属性都应该是完整的,而不是空值;确保关系中的外部连接引用具有完备性并保持其有效性;此外还包括业务规则所规定的其它完整性限制因素。
逻辑模型的创建经常利用图形化的手法,如真实-关系图(E-R图),这样能够直接呈现出对象、关系及其相关属性。
此种图形展示方式不仅让设计师间的沟通变得更为顺畅,还助于将业务的需求转换为数据库的格式。
在逻辑模型的基础之上,我们能够进一步推导出数据库的物理形态模型。
物理模型重视数据在物理存储上的细微之处,例如表格格式、查询索引、存储流程等细节。
逻辑型模型为物理建模提供了更高的标准,这确保了数据库的设计既能够满足业务的具体要求,同时也展现出出色的性能和扩展能力。
总体来说,数据库逻辑框架构成了连接业务需求与实际操作的纽带。
这为建立一个效率高且稳定稳定的数据库系统打下了坚实的基础,确立了数据的框架、相互关联及其完整性的限制。
在数据库设计的流程当中,逻辑模型的构思具有至关重要的地位,其设计质量和性能直接决定了数据库的可维护性、可扩展性和有效性。
因此,设计师必须深入了解业务的实际需要,并借助专业技能构建合适的逻辑模型。
3-3数据仓库设计-逻辑模型
……
… …
……
……
数据概括表与事实表对应关系
概括表表.列 名 是否 导出 事实表.列 名 SPGYB.SP 商品编号 _ID SPGYB.G YS_ID 供应商编号 备注 SPGKB.SP_I 否 D SPGKB.GYS _ID SPGKB.SPG YZSL SPGKB.SPG YZJE …… 否 是 是
商 品
商品号
销 售 客 户
销售单号
客户号
数据仓库的实体定义
实体 容量 更新频率 每月对客户情况进行一次分析,更 新频率也为每月一次 大约有500种商品,商品的更新是每 月一次,数据更新也照此。 Customer 中等容量,有100个重点客户, 2000个跟踪客户 Product 小容量,500种商品
确定粒度的循环和反复
提高粒度的方法
当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行 计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只 存在于设计者的脑海里)。
Windows/Acces RSGL s …… ……
数据源抽取规则表
表.列名 过滤与连接 条件 比较值 50000 500 ‘AB’ …… 复合条件 AND AND OR …… 备注 采购商品数量 小于50000 采购商品数量 大于500 商品前两位 非’AB’ …… KHCG.CGSL < KHCG.CGSL > SPQK.SPID …… ≠ ……
第一次作业题目
请详细描述数据库应用系统与数据仓库 之间的区别。(越详细越好,越全面越 好) 下星期三以前交。
数据仓库设计——逻辑模型内Leabharlann 提要数据仓库的逻辑模型设计
数据仓库逻辑模型介绍
数据集市
数据来源 OLTP 系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
数据粒度 最细的粒度
较粗的粒度
数据结构 规范化结构(第 3范式)星型模式、雪花模式、或 两者混合
历史数据 大量的历史数据
适度的历史数据
优化
处理海量数据、数据 便于访问和分析、快速查
探索
询
8
一、概念 -3
11
一、概念 -5 ? (5)元数据
? 业务元数据从业务的角度描述了数据仓库中的数据。它提供 了介于使用者和实际系统之间的语义层,使得不懂计算机技 术的业务人员也能够“读懂”数据仓库中的数据。使用者的 业务术语所表达的数据模型、对象名和属性名;访问数据的 原则和数据的来源;系统所提供的分析方法以及公式和报表 的信息。
13
一、概念 -7
? (7)OLAP 及其相关
? OLAP 、维度、事实、度量值 ? 切片、切块、上钻、下钻、旋转 ? 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
? (1)实施流程
?
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
17
二、数据仓库实施方法论 -3
? (3)逻辑数据模型设计
? 了解业务流程 ? 分析源数据 ? 建立实体模型 ? 建立实体间依赖关系 ? 填写并完善实体属性
18
应用 概要 开发
应用 详细 设计
应用 模型
应用 开发
开发
金融业逻辑数据模型-数仓十大主题-LDM_当事人主题
金融业逻辑数据模型FS-LDM 当事人PARTY主题1 定义/准入原则当事人(Party)是指银行所服务的任意对象和感兴趣进行分析的各种对象。
如:个人或公司客户、同业客户、潜在客户、代理机构、雇员、分行、部门等,一个当事人可以同时是这当中的许多角色。
当事人是一个独立的人或者一组人组成的机构、团体等,可分为个人、机构和家庭,他们是和银行有往来或者出于市场营销、分析管理等各种需要而希望关心和分析的个体或人群。
从数据仓库模型角度考虑,可以包括以下当事人信息:⏹在银行登记注册开立账户的单位/企业客户⏹在银行登记注册开立账户的个人普通客户⏹和银行有业务往来的其他金融机构(如国内同业、海外代理行等)⏹登记注册使用某项特殊服务的客户(如基金注册登记机构、基金交易客户、银行卡特约单位、联名认同单位、电子银行缴费单位/个人、网银集团客户/贵宾企业/商户/学校、航空公司等)⏹机构的内部组织(如分支机构、部门、团队等)⏹机构的员工(如柜员、客户经理等)⏹外部机构提供清单(如人行征信系统、国家统计局等)上银行感兴趣的各种对象⏹为银行提供某项专业服务的当事人(如咨询公司、设备提供商、法律顾问等)2 唯一标识当事人的唯一标识是“当事人编号”,该字段可以直接取自原业务系统中的唯一客户编号(可能需要加工,区分对公、个人和机构等),也可以由数据仓库系统按照一定的规则自行编制一个唯一编号。
3 当事人分类当事人分为个人当事人、机构当事人、家庭三类,机构当事人又分为内部机构和外部机构,外部机构又细分成“商业组织机构(企业)”和“非盈利组织机构(协会)”。
此外,“当事人”实体还可以通过“潜在客户标志”、“提供商标志”等字段实现其他口径不排他的分类。
⏹提供商信息:记录提供商的信息,如法律顾问、咨询家、财务顾问等和银行往来的历史记录等;⏹潜在客户信息:该实体记录银行所感兴趣的各种潜在客户的信息;⏹机构名称历史:记录机构的名称的变更历史,包括过去的、现在的正式名称、简称等。
制造业数据仓库 逻辑模型
制造业数据仓库逻辑模型制造业数据仓库逻辑模型数据仓库是指将不同来源的数据进行整合、清洗和转换,以支持企业的决策分析和业务运营。
在制造业中,数据仓库的建立可以帮助企业更好地管理和分析生产过程中所涉及的各种数据,从而提高生产效率、降低成本、优化产品质量和增强市场竞争力。
制造业数据仓库的逻辑模型是指在数据仓库建设过程中,对于制造业特定的数据进行建模和设计的过程。
逻辑模型是数据仓库的核心,它定义了数据仓库中各个数据表之间的关系和属性,为数据仓库的实际构建提供了指导和依据。
1. 数据仓库的维度建模在制造业数据仓库的逻辑模型中,维度建模是非常重要的一部分。
维度是描述业务过程中的各个方面的属性,例如产品、时间、地点、客户等。
在制造业数据仓库中,常见的维度包括产品维度、时间维度、地点维度、客户维度、供应商维度等。
通过对这些维度进行建模,可以更好地了解制造业中各个环节的情况,从而进行决策分析和业务优化。
2. 事实表的设计事实表是制造业数据仓库逻辑模型中的另一个关键部分。
事实表是描述业务过程中所发生事件的表,例如销售订单、生产计划、库存变动等。
在制造业数据仓库中,常见的事实表包括销售事实表、生产事实表、库存事实表等。
事实表中的每一行代表一个特定的事件,行中的各个字段记录了该事件的属性和指标信息。
通过对事实表的设计,可以方便地进行各种分析和查询,从而帮助企业更好地了解和掌握制造过程中的各个环节和指标。
3. 星型模型和雪花模型星型模型和雪花模型是制造业数据仓库逻辑模型的两种常见的建模方法。
星型模型是一种简单的建模方式,其中只包含一个事实表和多个维度表,事实表和维度表之间通过外键进行关联。
星型模型的优点是结构简单、易于理解和查询。
雪花模型在星型模型的基础上进行了扩展,将维度表进一步细化,形成了多层级的关系。
雪花模型的优点是可以更好地表示业务过程中的复杂关系和层次结构。
4. 数据粒度的确定在制造业数据仓库的逻辑模型中,数据粒度的确定是非常重要的一步。
数据库逻辑模型
数据库逻辑模型数据库逻辑模型,又叫做逻辑数据模型,是数据库技术中一种重要的基本模型。
它处于物理数据存储和用户使用之间,它表示数据库信息和关系模型之间的映射。
它支持用户定义更通用的视图,可以分解成较低级别的视图,来支持与特定数据库之间的映射,从而扩展应用程序的功能,它可以使应用程序开发者更充分地表达自己的需求,以实现更丰富的应用。
数据库逻辑模型的构建是一种结构的设计,它是一种用于描述数据之间的关系以及如何从数据库中获取和整理信息的技术。
它包含了定义系统的属性,以及确定数据之间的关系的规则。
逻辑模型的最大特点在于它将数据从物理存储中分离出来,因此,在模型中可以实现复杂的关系,并可以更有效地持久化数据,并将其存储在指定的数据库中。
数据库逻辑模型分为三个基本结构,分别为实体,关系和属性。
实体表示一个可以创建或改变的独立的物理对象,它可以包括一个或多个概念或元素,以及可以定义实体之间的关系。
关系是一种映射关系,它定义了不同实体之间的联系,这样,数据库就可以实现数据之间的连接和查询。
最后,属性是实体的描述,可以定义实体的特性和特征,以及特定实体所具有的属性。
在实际应用中,数据库逻辑模型有很多优点。
它极大地提升了灵活性,可以大大降低维护成本,因为可以拆分数据,从而使其可以更容易地更新和维护,可以节省存储空间,减少重复存储的数据,并可以有效提高关系数据库的性能。
在数据库技术中,数据库逻辑模型是一种非常重要的模型,它把数据从物理存储中分离出来,提供了一种方便的方式来实现复杂的关系,有效利用存储空间,提高性能,降低维护成本,从而给企业应用和管理带来更大的便利,可以有效地支持企业更好地进行管控,降低企业的日常管理成本,产生更大的价值。
3-3数据仓库设计-逻辑模型
数据的行数 数据所占存储设备空间 数据所需要的索引空间
只能做数据级上的估算 从一方或多方收集信息进行合理估算
粗略估算数据量算法
双重粒度和单一粒度
表的行数是影响粒度划分主要的因素 将数据库的总行数与下表进行比较
确定粒度的循环和反复
选择合适的粒度级别是体系结构设计环境成功 的关键。 选择粒度级别的一般方法,是利用常识,建立 数据仓库的一小部分,并让用户去访问这些数 据。然后仔细聆听用户的意见,根据他们的反 馈意见适当调整粒度的级别。 最坏的想法是想要事先设计好所有的粒度级别, 再进行数据仓库的建造。 即使在最好的情况下,能使设计的5 0 %是正 确的就已经很不错的了。数据仓库环境的特点 就是只有当决策支持系统分析员实际看到了报 告之后,才能想像哪些是真正需要的。
……
… …
……
……
数据概括表与事实表对应关系
概括表表.列 名 是否 导出 事实表.列 名 SPGYB.SP 商品编号 _ID SPGYB.G YS_ID 供应商编号 备注 SPGKB.SP_I 否 D SPGKB.GYS _ID SPGKB.SPG YZSL SPGKB.SPG YZJE …… 否 是 是
例: 银 行 粒 度 设 计
例: 银 行 粒 度 设 计
数据分割
数据分片概念
水平分片 垂直分片 混合分片 导出分片
按时间进行数据分割是最普遍的 分割标准
数据量 数据分析处理的实际情况 简单易行 粒度划分策略
数据仓库的数据抽取模型
F2 KHCG F3 SPQK F4 ZGYJ
F1 数据抽取规则
确定粒度的循环和反复
提高粒度的方法
当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行 计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只 存在于设计者的脑海里)。
数据仓库的数据模型
业务驱动任何需求均来源于业务,业务决定了需求,需求分析的正确与否是关系到项目成败的关键所在,从任何角度都可以说项目是由业务驱动的所以数据仓库项目也是由业务所驱动的.但是数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求,分析,设计,测试等通常的软件声明周期之外;他还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的物理模型异常重要,这也是关系到数据仓库项目成败的关键.数据仓库的结构总的来说是采用了三级数据模型的方式:概念模型: 也就是业务模型,由企业决策者,商务领域知识专家和IT专家共同企业级地跨领域业务系统需求分析的结果.逻辑模型:用来构建数据仓库的数据库逻辑模型。
根据分析系统的实际需求决策构建数据库逻辑关系模型,定义数据库物体结构及其关系。
他关联着数据仓库的逻辑模型和物理模型这两头.物理模型:构建数据仓库的物理分布模型,主要包含数据仓库的软硬件配置,资源情况以及数据仓库模式。
如上图所示,在数据仓库项目中,物理模型设计和业务模型设计象两个轮子一样有力的支撑着数据仓库的实施,两者并行不悖,缺一不可.实际上,我有意的扩大了物理模型和业务模型的内涵和外延.在这里物理模型不仅仅是数据的存储,而且也包含了数据仓库项目实施的方法论,资源,以及软硬件选型等等;而业务模型不仅仅是主题模型的确立,也包含了企业的发展战略,行业模本等等.一个优秀的项目必定会兼顾业务需求和行业的标准两个方面,业务需求即包括用户提出的实际需求,也要客观分析它隐含的更深层次的需求,但是往往用户的需求是不明确的,需要加以提炼甚至在商务知识专家引导下加以引导升华,和用户一起进行需求分析工作;不能满足用户的需求,项目也就失去原本的意义了.物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基->层层建筑->封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免的要考虑到数据库的物理设计.接下来,将详细阐述数据仓库概念模型(业务模型),逻辑模型,物理模型的意义.概念模型设计进行概念模型设计所要完成的工作是:界定系统边界确定主要的主题域及其内容确定主题域的关系概念模型设计是,在原有的业务数据库的基础上建立了一个较为稳固的概念模型。
数据库数据模型中逻辑模型的定义
数据库数据模型中逻辑模型的定义
在数据库设计过程中,逻辑模型是指对实际需求进行抽象和建模的过程,用于描述数据的组织结构、关系和约束。
逻辑模型的特点:
•逻辑模型更接近于真实世界的需求,而不是数据库管理系统的具体实现细节。
•逻辑模型使用概念和实体之间的关系来描述数据的逻辑结构。
•逻辑模型可以独立于数据库管理系统的特性进行设计和分析。
逻辑模型的常见类型:
1.关系模型:使用表格和关系来表示数据之间的关系。
2.层次模型:使用树形结构表示数据之间的层次关系。
3.网状模型:使用复杂的链接结构表示数据之间的关系。
通过使用逻辑模型,数据库设计者可以更好地理解和组织数据,从而提高数据库的可维护性和可扩展性。
注意:逻辑模型是数据库设计过程中重要的一步,需要详细考虑实际需求和数据之间的关系。
数据库建模:概念模型,逻辑模型和物理模型
数据库建模:概念模型,逻辑模型和物理模型概念模型设计 , 逻辑模型设计 , 物理模型设计是数据库及数据仓库模型设计的三个主要步骤1. 概念模型概念模型就是在了解了⽤户的需求 , ⽤户的业务领域⼯作情况以后 , 经过分析和总结 , 提炼出来的⽤以描述⽤户业务需求的⼀些概念的东西 ;如销售业务中的客户和定单 , 还有就是商品 , 业务员 , ⽤ USE CASE 来描述就是 : 业务员与客户就购买商品之事签定下定单 , 概念模型使⽤ E-R 图表⽰ , E-R 图主要是由实体 , 属性和联系三个要素构成的 , 该阶段需完成 :1. 该系统的商业⽬的是什么 , 要解决何种业务场景2. 该业务场景中 , 有哪些⼈或组织参与 , ⾓⾊分别是什么3. 该业务场景中 , 有哪些物件参与 ,4. 此外需要具备相关⾏业经验 , 如核⼼业务流程 , 组织架构 , ⾏业术语5. 5w1h , who , what , when , where , why, how2. 逻辑模型逻辑模型是将概念模型转化为具体的数据模型的过程 , 即按照概念结构设计阶段建⽴的基本 E-R 图 , 按选定的管理系统软件⽀持的数据模型(层次/⽹状/关系/⾯向对象) , 转换成相应的逻辑模型 , 这种转换要符合关系数据模型的原则 ;还以销售业务为例 : 客户信息基本上要包括 : 单位名称 , 联系⼈ , 联系电话 , 地址等属性商品信息基本上要包括 : 名称 , 类型 , 规格 , 单价等属性定单信息基本上要包括 : ⽇期和时间属性 ; 并且定单要与客户 , 业务员和商品明细关联 , 该阶段需完成 :1. 分多少个主题 , 每个主题包含的实体2. 每个实体的属性都有什么3. 各个实体之间的关系是什么4. 各个实体间是否有关系约束3. 物理模型物理模型就是针对上述逻辑模型所说的内容 , 在具体的物理介质上实现出来 , 系统需要建⽴⼏个数据表 : 业务员信息表 , 客户信息表 , 商品信息表 , 定单表 ; 系统要包括⼏个功能 : 业务员信息维护 , 客户信息维护 , 商品信息维护 , 建⽴销售定单 ; 表 , 视图 , 字段 , 数据类型 , 长度 , 主键, 外键 , 索引 , 约束 , 是否可为空 , 默认值 , 该阶段需完成 :1. 类型与长度的定义2. 字段的其他详细定义 , ⾮空 , 默认值3. 却准详细的定义 , 枚举类型字段 , 各枚举值具体含义4. 约束的定义 , 主键 , 外键这三个过程 , 就是实现⼀个数据库设计的三个关键的步骤 , 是⼀个从抽象到具体的⼀个不断细化完善的分析 , 设计和开发的过程 ;。
数据仓库开发模型ppt课件
agelevel_id time_id year_id month_id
geo_id prov_id city_id county_id produ_id amou_mone
全连接结果
time_id year_id month_id
produ_id
agelevel_id time_id geo_id produ_id
d 概括与聚集:向需要概括总数的数据中增加新的数值。 d 预算与推导:创建附加的数据字段。 d 转换与再映像:把数据源信息转化为适合于数据仓库事
实表行的过程以及将许多表组成事实表行的过程。
42
2.5.3 元数据的收集
v 元数据遍及数据仓库中的任何地方和环境中,因此元数据的收 集过程应尽量采用自动收集方式进行。
48
2.6.4 聚集模型的处理
v 聚集事实表已经独立存在并且可以与基本事实表一同保存。 v 通过将当前加载数据添加到系统中的累积“桶”中 ,可以创建
某时间短的聚集。 v 将数据的聚集与数据仓库的加载过程组合为同一处理过程 。 v 在将数据仓库数据加载以后,再进行聚集处理 。 v 每次在加载数据仓库数据时,都需要对各种聚集进行计算和
34
2.5 数据仓库的元数据模型
35
2.5.1 元数据的类型与组成
v 元数据是数据的数据,是对数据仓库中的各种数据的详细 的描述与说明。
v 根据元数据在数据仓库中所承担的任务,可以将元数据分 成静态元数据和动态元数据两类。
v 静态元数据主要与数据结构有关;动态元数据主要与数据 的状态和使用方法有关。
增加,及时保持聚集与基本数据的同步性 。
49
2.6.5 聚集模型的管理
v 要根据使用情况删除不经常使用的聚集 。 v 需要减少层次过于接近的聚集生成 。 v 注意将聚集独立存储在自己的事实表中,便于用户直接进
数据库逻辑模型
数据库逻辑模型数据库是一个存放和管理信息的系统,由于计算机技术发展,数据库应用变得越来越广泛,被大量使用。
这就需要一个更为完善的模型来支撑数据库应用,这就是数据库逻辑模型。
数据库逻辑模型是一种结构性体系,它以复杂的数据组织形式来表示现实世界的结构和实体,并且能够把细节的数据的表示转换成更加合理的数据结构。
数据库逻辑模型通常分为三种不同的基本模型,它们分别是关系模型、网状模型和层次模型。
三种基本模型的定义及它们之间的联系如下:关系模型:关系模型把信息作为表格表示,把相互关联的关系以表格的形式表达出来,每个表有几个列来表示信息,每一行表示一条记录,每一列表示一个属性。
网状模型:网状模型用网络元素表示信息,形成网络模型,并且实现程序开发以及数据管理。
网状模型包含两个概念:节点和链接。
节点是数据的物理存储单元,用节点的集合表示数据的物理结构,链接用来表示数据之间的逻辑关系。
层次模型:层次模型是由父子层构成的数据结构,描述了信息中联系关系和隶属关系,树形结构也是层次模型的一种特殊表示方式。
层次模型因为它的易用性,而被广泛的使用。
数据库的物理机构可能不同,但是它们的逻辑结构是相同的,因此需要数据库逻辑模型。
数据库逻辑模型的最终目的是确保数据的一致性,实现数据的有效管理。
相较于其它模型,数据库逻辑模型有很多优点。
首先它可以把细节的数据表示转换成更加完善的数据库模型,其次它可以实现数据的有效管理以及更高效的处理,最后它也能够有效支撑现实世界的复杂数据组织。
数据库逻辑模型被广泛的使用在许多不同的领域,它可以用于客户关系管理,可以用于网上购物,也可以用于媒体,教育等等。
其实数据库逻辑模型正成为一种不可或缺的部分,它对各种不同领域的数据库应用起到越来越重要的作用。
总之,数据库逻辑模型是一种高效、灵活、实用的模型,它已经成为今天不同领域数据库应用的重要组成部分,未来它也将发挥更加重要的作用。
数据仓库逻辑建模
数据仓库逻辑建模数据仓库模型的特点对于传统的OLTP系统,我们总是按照应用来建立它的模型,换言之,OLTP系统是面向应用的。
而数据仓库则一般按照主题(Subject)来建模,它是面向主题的。
何谓应用?何谓主题?让我们来看一个简单的例子。
在银行中,一般都有对私(个人储蓄)、对公(企业储蓄)、信用卡等多种业务系统,它们都是面向应用的,所支持的交易类型简单而且固定。
由于实施的先后等原因,这些系统可能运行在不同的平台上,相互之间没有什么关系,各系统之间的数据存在冗余。
比如每个系统中都会有客户的数据,当针对银行建立其数据仓库应用时,要把上述生产系统中的数据转换到数据仓库中来。
从整个银行的角度来看,其数据模型不再面向个别应用,而是面向整个银行的主题,比如客户、产品、渠道等。
因此,各个生产系统中与客户、产品、渠道等相关的信息将分别转换到数据仓库中相应的主题中,从而在整个银行的业务界面上提供一个一致的信息视图。
数据仓库的建模方法逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。
目前较常用的两种建模方法是所谓的第三范式(3NF,即Third Normal Form)和星型模式(Star-Schema),我们将重点讨论两种方法的特点和它们在数据仓库系统中的适用场合。
什么是第三范式范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化(Normalize)。
在数据仓库的模型设计中目前一般采用第三范式,它有非常严格的数学定义。
如果从其表达的含义来看,一个符合第三范式的关系必须具有以下三个条件:1. 每个属性的值唯一,不具有多义性;2. 每个非主属性必须完全依赖于整个主键,而非主键的一部分;3. 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。
我们可以看到,第三范式的定义基本上是围绕主键与非主属性之间的关系而作出的。
数据仓库的数据模型
业务驱动任何需求均来源于业务,业务决定了需求,需求分析的正确与否是关系到项目成败的关键所在,从任何角度都可以说项目是由业务驱动的所以数据仓库项目也是由业务所驱动的.但是数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求,分析,设计,测试等通常的软件声明周期之外;他还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的物理模型异常重要,这也是关系到数据仓库项目成败的关键.数据仓库的结构总的来说是采用了三级数据模型的方式:概念模型: 也就是业务模型,由企业决策者,商务领域知识专家和IT专家共同企业级地跨领域业务系统需求分析的结果.逻辑模型:用来构建数据仓库的数据库逻辑模型。
根据分析系统的实际需求决策构建数据库逻辑关系模型,定义数据库物体结构及其关系。
他关联着数据仓库的逻辑模型和物理模型这两头.物理模型:构建数据仓库的物理分布模型,主要包含数据仓库的软硬件配置,资源情况以及数据仓库模式。
如上图所示,在数据仓库项目中,物理模型设计和业务模型设计象两个轮子一样有力的支撑着数据仓库的实施,两者并行不悖,缺一不可.实际上,我有意的扩大了物理模型和业务模型的内涵和外延.在这里物理模型不仅仅是数据的存储,而且也包含了数据仓库项目实施的方法论,资源,以及软硬件选型等等;而业务模型不仅仅是主题模型的确立,也包含了企业的发展战略,行业模本等等.一个优秀的项目必定会兼顾业务需求和行业的标准两个方面,业务需求即包括用户提出的实际需求,也要客观分析它隐含的更深层次的需求,但是往往用户的需求是不明确的,需要加以提炼甚至在商务知识专家引导下加以引导升华,和用户一起进行需求分析工作;不能满足用户的需求,项目也就失去原本的意义了.物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基->层层建筑->封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免的要考虑到数据库的物理设计.接下来,将详细阐述数据仓库概念模型(业务模型),逻辑模型,物理模型的意义.概念模型设计进行概念模型设计所要完成的工作是:界定系统边界确定主要的主题域及其内容确定主题域的关系概念模型设计是,在原有的业务数据库的基础上建立了一个较为稳固的概念模型。
数据仓库逻辑模型介绍
MDM
据
源
?数据集市 ?Data Mart
?面向分析主题
?汇总数据
提
?Star Schema 建模
供
?视图
一
个
?逻辑数据模型
统
?保留详细交易数据 LDM
一
?面向关键主题域
的
?3NF
数
据
组
?数据清洗/转换/加载
织
?文本文件
结
构
PLM
?面向业务应
用
?3NF
21
主题例子-财务(Finance)
财务 (Finance):
? 元数据为访问数据仓库提供了一个信息目录( information directory ),这个目录全面描述了数据仓库中都有什么数据、 这些数据怎么得到的、和怎么访问这些数据。它是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数 据,用户通过他来了解和访问数据。
12
一、概念 -6
? (6)数据粒度
13
一、概念 -7
? (7)OLAP 及其相关
? OLAP 、维度、事实、度量值 ? 切片、切块、上钻、下钻、旋转 ? 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
? (1)实施流程
?
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
数据集市
数据来源 OLTP 系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
UML的数据仓库逻辑建模研究分析
UML的数据仓库逻辑建模研究分析数据仓库逻辑建模是指通过UML(Unified Modeling Language)来对数据仓库系统进行分析和研究的过程。
在这个过程中,我们使用UML的视图、图和图表等工具来描述数据仓库系统的逻辑结构和行为。
首先,我们可以使用UML的用例图来描述数据仓库系统的功能和用户需求。
用例图可以帮助我们识别数据仓库系统的主要功能和主要用户,并定义各个功能之间的关系和交互。
例如,我们可以定义数据仓库系统的主要用例,如数据导入、数据查询、数据分析等,并通过用例之间的关系和依赖来描述它们之间的交互。
接下来,我们可以使用UML的类图来描述数据仓库系统中的实体和类之间的关系和结构。
类图可以帮助我们识别数据仓库系统中的实体、属性和关系,并定义它们之间的依赖和关联。
例如,我们可以定义数据仓库系统的主要实体类,如数据表、维度表、事实表等,并通过类之间的关联和依赖来描述它们之间的关系和结构。
此外,我们还可以使用UML的时序图来描述数据仓库系统中的事件和过程。
时序图可以帮助我们分析数据仓库系统中各个过程之间的时序关系和消息交互。
例如,我们可以通过时序图来描述数据仓库系统的数据导入过程,包括数据的来源、转换和加载等,以及数据查询和分析的过程,包括用户的请求、系统的处理和返回结果等。
最后,我们可以使用UML的活动图来描述数据仓库系统中的工作流程和业务逻辑。
活动图可以帮助我们分析数据仓库系统的业务流程和系统行为,并定义各个活动之间的控制流程和动作。
例如,我们可以通过活动图来描述数据仓库系统的数据清洗过程,包括数据的筛选、清洗和转换等,以及数据分析的过程,包括数据的统计、聚合和挖掘等。
综上所述,通过使用UML的视图、图和图表等工具,我们可以对数据仓库系统进行逻辑建模的研究和分析。
通过这些模型和图表,我们可以更好地理解数据仓库系统的结构和行为,并优化系统的设计和实现。
数据仓库逻辑建模是一个复杂而又关键的过程,它涉及到对数据仓库系统的需求分析、系统结构设计和系统行为分析等方面。
数据库逻辑模型和物理模型
数据库逻辑模型和物理模型数据库逻辑模型和物理模型数据库中逻辑模型和物理模型是两个不同的概念,它们在数据结构和功能上有着本质的差异,在理解数据库时,需要考虑这两种模型的概念。
一、数据库逻辑模型数据库逻辑模型是一种抽象的数据模型,它将数据表示成实体和实体之间的关系。
它涵盖了数据库所涉及的实体、实体的属性、实体之间的关系以及实体之间的属性联系等概念。
数据库逻辑模型主要有三种:关系模型、网状模型和对象模型。
关系模型是最常用的数据库逻辑模型,它将实体和实体之间的关系视为表格,表格的每一行列出一个实体,每一列列出一个属性,经过关联后形成一张表格。
网状模型视实体和实体之间的关系为网状,它将实体当作点,将实体之间的关系当作边,将实体和实体之间的属性当作节点,将实体的某一特定属性值当作实体节点的值来表示实体,经过关联后形成一个网状结构。
对象模型将实体和实体之间的关系看做是一个对象,它将实体当作对象,实体之间的关系当作对象的属性,实体的某一特定属性值当作对象属性的值,经过关联后形成一个对象结构。
数据库逻辑模型不仅可以用来表示数据库的概念,而且还可以用来提高数据库的可用性和可理解性。
二、数据库物理模型数据库物理模型是一种描述数据库物理结构和存储结构的模型,它将物理存储空间和文件结构等内容进行建模。
常用的数据库物理模型有哈希模型、索引模型、树模型和网状模型等。
哈希模型是一种数据库物理模型的简单形式,它将数据表示成为哈希表,其中每条数据都有一个唯一的地址,每条数据都有一个相应的哈希值,通过哈希函数来定位数据,它可以提高数据库的存取效率。
索引模型是一种考虑空间利用率的物理模型,它将数据表示成索引表,使数据可以通过索引访问,可以提高检索效率。
树模型是一种考虑空间利用率和存取效率的物理模型,它将数据表示成树形结构,以便在查询时可以更快地找到搜索结果。
网状模型用于描述存储空间的物理特性,它将存储空间中的数据表示成网状结构,使得数据能够更有效地存储和检索。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、概念 -2
ODS与数据仓库
共同点:面向主题的和集成的,需要进行转换、加工处理 区别:主要体现数据的可变性和当前性上
ODS 实时的、可动态刷新的 当前运行系统的数据
明细数据
数据仓库 非实时的、静态的 除了保存当前数据,还需 要保存大量的历史数据 保存明细和汇总数据
7
一、概念 -2
数据仓库
应用 详细 设计
应用 应用 模型 开发
开发
数
据
挖
掘
服
逻辑 物理 系统
务
信息调研(ID)
数据 模型
数据 体系 ETL 模型 结构 开发
设计 设计 设计
系
元 数 据 管
理
统 软 件 硬 件 设 备 安
系 统 管 理 与 维
护
系 统 测 试 与 验
收
项目 结束 回顾
装
项目管理(Project Management)
13
一、概念 -7
(7)OLAP及其相关
OLAP、维度、事实、度量值 切片、切块、上钻、下钻、旋转 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
(1)实施流程
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
应用 概要 开发
数据仓库逻辑模型介绍
数据仓库逻辑模型介绍
Tony 2010-3-15
内容
相关概念介绍 数据仓库实施方法论 LDM介绍 学习经验分享
2
一、概念 -1
(1)为什么要建设数据仓库?
蜘蛛网问题
✓ 数据缺乏可信性 ✓ 数据处理效率低下 ✓ 难以将数据转化为信息
3
图1 蜘蛛网现象 4
一、概念 -1
数据仓库是面向主题的、集成的、稳定的(不可更新)、反映 历史变化(不同时间)的数据集合,用以支持经营管理中的 决策制定过程。(Inmon,1991)
数据集市也可叫做“小数据仓库”。如果说数据仓库是建立 在企业级的数据模型之上的话。那么数据集市就是企业级数 据仓库的一个子集,他主要面向部门级业务,并且只面向某 个特定的主题。数据集市可以在一定程度上缓解访问数据仓 库的瓶颈。
(3)ETL
ETL是数据抽取(Extract)、转换(Transform)、清洗 (Cleansing)、装载(Load)的过程。
是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过数据清洗,最终按照预先定义好的数据仓库模型,将 数据加载到数据仓库中去。
ETL主要解决各源数据的异构性和低质量(标准化、清除噪声
19
二、数据仓库实施方法论 -5
(5)数据模型的演变
概念数据模型(CDM) 逻辑数据模型(LDM) 扩展逻辑数据模型(ELDM) 物理数据模型(PDM)
20
三、LDM -1
(1)逻辑模型在仓库中的地位
•最终用户
数据仓库
ETL服务
AT&T
器
ODS
数
LEM心 GVS
MDM
据
源
•数据集市 •Data Mart
(1)为什么要建设数据仓库?
统一数据源 统一数据标准
5
一、概念 -2
(2) ODS、数据仓库、数据集市
操作数据存储(Operational Data Store)是一个面向主题的、 集成的、可变的、当前的细节数据集合,用于支持企业对于 即时性的、操作性的、集成的全体信息的需求。常常被作为 数据仓库的过渡,也是数据仓库项目的可选项之一。
数据 ) 、计算和汇总指标数据。
9
一、概念 -4
(4)数据加载策略
更新(Upsert、delete/insert) 拉链(时间拉链/自拉链, 历史) 追加(直接insert,防止重复加载先delete当天) ✓ 当前表、历史表、流水表
10
一、概念 -5 (5)元数据
元数据:是描述数据仓库内数据的结构和建立方法的数据。 可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管 理数据仓库时用的数据。包括:数据源信息;数据转换的描 述;数据仓库内对象和数据结构的定义;数据清理和数据更 新时用的规则;源数据到目标的数据映射;用户访问权限, 数据备份历史记录,数据导入历史记录,信息发布历史记录 等。
11
一、概念 -5 (5)元数据
12
一、概念 -6
(6)数据粒度
粒度是指数据仓库的数据单位中保存数据的细化或综合程度 的级别(详细程度 )。细化程度越高,粒度级就越小;相反, 细化程度越低,粒度级就越大。
取决于:数据量大小 、存储设备的容量、查询分析的需要 一定的时间窗内存放细的粒度数据,超过一定的时期,只提
供粗粒度的汇总数据,从而在性能与需求上达到一种平衡。
数据集市
数据来源 OLTP系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
数据粒度 最细的粒度
较粗的粒度
数据结构 规范化结构(第3范式)星型模式、雪花模式、或 两者混合
历史数据 大量的历史数据
适度的历史数据
优化
处理海量数据、数据 便于访问和分析、快速查
探索
询
8
一、概念 -3
15
二、数据仓库实施方法论 -2
(2)信息调研
源系统调研 数据源分析 数据质量分析 数据缺口分析 数据更新周期及更新方式分析 用户需求分析
内部培训 源系统介绍 数据字典整理 样本数据分析 表级和字段级分析
16
二、数据仓库实施方法论 -3
(3)逻辑数据模型设计
基于概念数据模型(CD解 集成当前和未来数据的蓝图 独立于技术 为物理数据库设计作准备 是IT人员和业务人员沟通的工具
•面向分析主题
•汇总数据
提
•Star Schema 建模
供
•视图
一
个
•逻辑数据模型
统
•保留详细交易数据 LDM
一
•面向关键主题域
的
•3NF
数
据
组
•数据清洗/转换/加载
织
•文本文件
结
构
PLM
•面向业务应
用
•3NF
21
主题例子-财务(Finance)
财务 (Finance):
协议主要指的 是订单和合同 及相关的帐户
财务(Finance):主要包括的总帐信息,是描述科目组织、控
制、内部核算等银行核心科目帐务以及预算管理有关的内容。该
主题抽象地描述了内部帐务的组织模式,能够适应不同的科目组
织体系。
22
四、个人学习经验
(1) 体系结构、SQL语法 (2)结合逻辑模型看脚本
源系统简称、代码 各主题标识生成规则 仓库代码 源系统数据字典
17
二、数据仓库实施方法论 -3
(3)逻辑数据模型设计
了解业务流程 分析源数据 建立实体模型 建立实体间依赖关系 填写并完善实体属性
18
二、数据仓库实施方法论 -4
(4)物理数据库设计
转换逻辑模型为物理模型 定义主索引、次索引 非正则化处理 数据库建立 设计优化 数据库功能测试
23
业务元数据从业务的角度描述了数据仓库中的数据。它提供 了介于使用者和实际系统之间的语义层,使得不懂计算机技 术的业务人员也能够“读懂”数据仓库中的数据。使用者的 业务术语所表达的数据模型、对象名和属性名;访问数据的 原则和数据的来源;系统所提供的分析方法以及公式和报表 的信息。
元数据为访问数据仓库提供了一个信息目录(information directory),这个目录全面描述了数据仓库中都有什么数据、 这些数据怎么得到的、和怎么访问这些数据。它是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数 据,用户通过他来了解和访问数据。