数据仓库逻辑模型介绍
数据仓库的逻辑模型
![数据仓库的逻辑模型](https://img.taocdn.com/s3/m/57b5e716ac02de80d4d8d15abe23482fb5da0214.png)
数据仓库的逻辑模型介绍
数据仓库是一种面向主题的、集成的、稳定的、不同时间的数据集合,用于支持管理决策过程。
逻辑模型是数据仓库的核心,它描述了数据仓库中数据的组织和存储方式,以及数据仓库的结构和功能。
本文将介绍数据仓库的逻辑模型,包括数据仓库的数据源、数据存储、数据集市和数据访问。
一、数据源
数据仓库的数据源可以是多种类型的,包括关系数据库、OLAP 数据库、文件系统、外部数据源等。
不同的数据源具有不同的特点和优势,需要根据实际情况选择合适的数据源。
二、数据存储
数据仓库的数据存储是指将数据源中的数据加载到数据仓库中,并对数据进行处理和转换,以满足数据仓库的需求。
数据存储通常采用分布式存储架构,以支持大量数据的存储和查询。
三、数据集市
数据集市是数据仓库中面向特定主题的数据集合,它将数据仓库中的数据按照业务需求进行分类和组织。
数据集市通常包括多个表,每个表代表一个主题,例如销售、客户、产品等。
数据集市中的数据可以根据业务需求进行查询和分析。
四、数据访问
数据访问是指数据仓库中的数据如何被访问和使用。
数据仓库的数据访问通常采用OLAP(联机分析处理)和数据挖掘技术。
OLAP技术支持用户对数据仓库中的数据进行快速查询和分析,数据挖掘技术则可以帮助用户从大量数据中发现有价值的信息和规律。
总之,数据仓库的逻辑模型是数据仓库的核心,它描述了数据仓
库中数据的组织和存储方式,以及数据仓库的结构和功能。
数据仓库的数据源、数据存储、数据集市和数据访问是数据仓库逻辑模型的重要组成部分,它们共同构成了一个完整的数据仓库系统。
3-3数据仓库设计-逻辑模型
![3-3数据仓库设计-逻辑模型](https://img.taocdn.com/s3/m/27fb0663caaedd3383c4d37a.png)
……
… …
……
……
数据概括表与事实表对应关系
概括表表.列 名 是否 导出 事实表.列 名 SPGYB.SP 商品编号 _ID SPGYB.G YS_ID 供应商编号 备注 SPGKB.SP_I 否 D SPGKB.GYS _ID SPGKB.SPG YZSL SPGKB.SPG YZJE …… 否 是 是
商 品
商品号
销 售 客 户
销售单号
客户号
数据仓库的实体定义
实体 容量 更新频率 每月对客户情况进行一次分析,更 新频率也为每月一次 大约有500种商品,商品的更新是每 月一次,数据更新也照此。 Customer 中等容量,有100个重点客户, 2000个跟踪客户 Product 小容量,500种商品
确定粒度的循环和反复
提高粒度的方法
当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行 计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只 存在于设计者的脑海里)。
Windows/Acces RSGL s …… ……
数据源抽取规则表
表.列名 过滤与连接 条件 比较值 50000 500 ‘AB’ …… 复合条件 AND AND OR …… 备注 采购商品数量 小于50000 采购商品数量 大于500 商品前两位 非’AB’ …… KHCG.CGSL < KHCG.CGSL > SPQK.SPID …… ≠ ……
第一次作业题目
请详细描述数据库应用系统与数据仓库 之间的区别。(越详细越好,越全面越 好) 下星期三以前交。
数据仓库设计——逻辑模型内Leabharlann 提要数据仓库的逻辑模型设计
数据仓库的多维数据模型
![数据仓库的多维数据模型](https://img.taocdn.com/s3/m/d198a3317dd184254b35eefdc8d376eeaeaa179e.png)
数据仓库的多维数据模型数据仓库的多维数据模型是一种用于组织和表示数据仓库中数据的结构化方法。
它通过将数据组织成多维数据立方体来提供灵活的数据分析和查询能力。
本文将详细介绍数据仓库的多维数据模型的定义、特点、设计原则以及常用的多维数据模型。
一、定义数据仓库的多维数据模型是一种基于事实表和维度表的数据结构,用于描述和组织数据仓库中的数据。
事实表包含与业务过程相关的数值型度量数据,而维度表包含与事实表相关的描述性属性。
通过将事实表和维度表进行关联,可以构建多维数据立方体,实现对数据的多维分析和查询。
二、特点1. 多维性:多维数据模型将数据组织成多维数据立方体,可以同时从不同的维度对数据进行分析和查询,从而提供全面的视角和深入的洞察力。
2. 灵活性:多维数据模型可以根据业务需求进行灵活的扩展和调整,可以添加新的维度或度量,以适应不断变化的业务环境。
3. 高性能:多维数据模型通过预计算和聚合技术,可以提高数据查询的性能,加快数据分析的速度,满足用户对实时和快速的数据响应的需求。
4. 可理解性:多维数据模型采用直观的图形化表示方式,使用户能够直观地理解和探索数据,从而更好地支持决策和业务分析。
三、设计原则1. 选择合适的粒度:在设计多维数据模型时,需要根据业务需求选择合适的粒度,即事实表中的度量数据的精度。
粒度的选择应该能够满足用户对数据分析和查询的需求,同时避免数据冗余和过度复杂性。
2. 定义清晰的维度:维度是多维数据模型的核心,需要定义清晰、一致和可理解的维度。
维度应该包含与事实表相关的描述性属性,如时间、地理位置、产品等,以支持多维分析和查询。
3. 建立正确的关联:事实表和维度表之间的关联是多维数据模型的关键,需要确保关联的正确性和一致性。
关联的建立应该基于业务规则和数据的语义,避免数据的冗余和错误。
4. 使用合适的聚合:为了提高数据查询的性能,可以使用聚合技术对数据进行预计算和汇总。
聚合的选择应该基于业务需求和数据的访问模式,以平衡性能和精度的要求。
3-3数据仓库设计-逻辑模型
![3-3数据仓库设计-逻辑模型](https://img.taocdn.com/s3/m/27fb0663caaedd3383c4d37a.png)
数据的行数 数据所占存储设备空间 数据所需要的索引空间
只能做数据级上的估算 从一方或多方收集信息进行合理估算
粗略估算数据量算法
双重粒度和单一粒度
表的行数是影响粒度划分主要的因素 将数据库的总行数与下表进行比较
确定粒度的循环和反复
选择合适的粒度级别是体系结构设计环境成功 的关键。 选择粒度级别的一般方法,是利用常识,建立 数据仓库的一小部分,并让用户去访问这些数 据。然后仔细聆听用户的意见,根据他们的反 馈意见适当调整粒度的级别。 最坏的想法是想要事先设计好所有的粒度级别, 再进行数据仓库的建造。 即使在最好的情况下,能使设计的5 0 %是正 确的就已经很不错的了。数据仓库环境的特点 就是只有当决策支持系统分析员实际看到了报 告之后,才能想像哪些是真正需要的。
……
… …
……
……
数据概括表与事实表对应关系
概括表表.列 名 是否 导出 事实表.列 名 SPGYB.SP 商品编号 _ID SPGYB.G YS_ID 供应商编号 备注 SPGKB.SP_I 否 D SPGKB.GYS _ID SPGKB.SPG YZSL SPGKB.SPG YZJE …… 否 是 是
例: 银 行 粒 度 设 计
例: 银 行 粒 度 设 计
数据分割
数据分片概念
水平分片 垂直分片 混合分片 导出分片
按时间进行数据分割是最普遍的 分割标准
数据量 数据分析处理的实际情况 简单易行 粒度划分策略
数据仓库的数据抽取模型
F2 KHCG F3 SPQK F4 ZGYJ
F1 数据抽取规则
确定粒度的循环和反复
提高粒度的方法
当源数据置入数据仓库时,对它进行汇总。 当源数据置入数据仓库时,对它求平均或进行 计算。 把最大/最小的设定值置入数据仓库。 只把显然需要的数据置入数据仓库。 用条件逻辑选取记录的一个子集置入数据仓库。 对于数据怎样轻度汇总是没有限制的(限制只 存在于设计者的脑海里)。
胖子哥的大数据之路(9)-数据仓库金融行业数据逻辑模型FS-LDM
![胖子哥的大数据之路(9)-数据仓库金融行业数据逻辑模型FS-LDM](https://img.taocdn.com/s3/m/541b466b26d3240c844769eae009581b6bd9bd2c.png)
胖⼦哥的⼤数据之路(9)-数据仓库⾦融⾏业数据逻辑模型FS-LDM引⾔: ⼤数据不是海市蜃楼,万丈⾼楼平地起只是意淫,⼤数据发展还要从点滴做起,基于⼤数据构建国家级、⾏业级数据中⼼的项⽬会越来越多,⼤数据只是技术,⽽⾮解决⽅案,同样⾯临数据组织模式,数据逻辑模式的问题。
它⼭之⽯可以攻⽟,本⽂就数据仓库领域数据逻辑模型建设最负盛名的FS-LDM进⾏介绍,旨在抛砖引⽟,希望能够给⼤家以启迪。
参与交流请加群:347018601⼀、概述(1)什么是LDM 逻辑数据模型LDM是数据仓库的数据建设阶段为解决业务需求⽽定义的数据仓库模型解决⽅案,它是指导数据仓库进⾏数据存放、数据组织、以及如何⽀持应⽤的蓝图,定义需要追踪和管理的各种重要实体、属性、关系。
(2)为什么需要LDM 操作型数据库和数据仓库都需要的数据组织模式; LDM是构建DW的第⼀步,是建⽴BI的基础框架,是提供价值数据分析的重要基础,为复杂的DW系统实施提供了规范和基础结构的蓝图; LDM促进业务部门和IT分析⼈员之间的有效沟通,形成对重要业务定义和术语的统⼀认识。
具备跨部门、中性的特征,能够表达所有的业务;(3)主流LDM有哪些 Teradata FS-LDM(⾦融服务逻辑数据模型):是预先构建的LDM,利⽤它可以直接开始数据仓库模型设计,它是⼀个成熟的产品; IBM有BDWM(Banking Data Warehouse Model);⼆、FS-LDM ⾦融11个主题模型1.团体 PARTY是指银⾏作为⼀个⾦融机构所服务的任意对象和感兴趣进⾏分析的各种对象。
如个⼈、公司客户、潜在客户、代理机构、合作伙伴、雇员、分⾏、部门等。
⼀个团体可以同时是这当中许多种⾓⾊。
借助团体主题的建⽴可以实现基于客户基本信息的分析,是实现以客户为中⼼的各种分析应⽤的重要基础。
2.资产 ASSET⽤于描述团体的资产,资产主题包含两⼤类的资产,客户资产和建⾏⾃有资产。
数据库的逻辑结构
![数据库的逻辑结构](https://img.taocdn.com/s3/m/0ad86c956bd97f192379e965.png)
6
第6页/共48页
常用段的类型
❖数据段:用于存放表的数据,表与数据段是一 一 对应的关系,并且段名与表名完全相同。
❖索引段:用于存放索引的数据,索引段与索引也 是一 一对应的关系,并且名称相同。
❖回滚段:用于存放事务所修改数据的旧值。
7
第7页/共48页
区(extent)
❖是Oracle空间分配的逻辑单位,由相邻的数 据块组成,一个区只能唯一地属于一个数据 文件。 ❖当建立数据对象时,Oracle会为数据对象以 区为单位分配存储空间。 ❖当建立段时,Oracle至少要为其分配一个区, 当段不足以容纳数据对象时,该段会自动扩 展一个区。
5)屏蔽参数可以使用“#”。 在构造Oracle Server之前,首先需要完成的
任务就是建立参数文件。Oracle建议将参数文 件放到Oracle主路径的database子目录下,并 将参数文件名称设置为: init<SID>.ora 其中 SID为实例标识符。
12
第12页/共48页
管理实例和数据库
❖ 建立参数文件
1)复制参数文件 将文件 d:\oracle\admin\oracle\pfile\init.ora复制
到 d:\oracle\ora92\database\inittest.ora 2)编辑初始化参数
db_name = test instance_name = test control_files = e:\test\test01.ctl db_block_size = 8192
安装此包必须以SYSTEM用户运行该脚本。
SQL>CONN system/manager SQL>@%oracle_home%\sqlplus\admin\pupbld.sql
数据仓库的数据模型
![数据仓库的数据模型](https://img.taocdn.com/s3/m/659ef43e050876323012121c.png)
业务驱动任何需求均来源于业务,业务决定了需求,需求分析的正确与否是关系到项目成败的关键所在,从任何角度都可以说项目是由业务驱动的所以数据仓库项目也是由业务所驱动的.但是数据仓库不同于日常的信息系统开发,除了遵循其他系统开发的需求,分析,设计,测试等通常的软件声明周期之外;他还涉及到企业信息数据的集成,大容量数据的阶段处理和分层存储,数据仓库的模式选择等等,因此数据仓库的物理模型异常重要,这也是关系到数据仓库项目成败的关键.数据仓库的结构总的来说是采用了三级数据模型的方式:概念模型: 也就是业务模型,由企业决策者,商务领域知识专家和IT专家共同企业级地跨领域业务系统需求分析的结果.逻辑模型:用来构建数据仓库的数据库逻辑模型。
根据分析系统的实际需求决策构建数据库逻辑关系模型,定义数据库物体结构及其关系。
他关联着数据仓库的逻辑模型和物理模型这两头.物理模型:构建数据仓库的物理分布模型,主要包含数据仓库的软硬件配置,资源情况以及数据仓库模式。
如上图所示,在数据仓库项目中,物理模型设计和业务模型设计象两个轮子一样有力的支撑着数据仓库的实施,两者并行不悖,缺一不可.实际上,我有意的扩大了物理模型和业务模型的内涵和外延.在这里物理模型不仅仅是数据的存储,而且也包含了数据仓库项目实施的方法论,资源,以及软硬件选型等等;而业务模型不仅仅是主题模型的确立,也包含了企业的发展战略,行业模本等等.一个优秀的项目必定会兼顾业务需求和行业的标准两个方面,业务需求即包括用户提出的实际需求,也要客观分析它隐含的更深层次的需求,但是往往用户的需求是不明确的,需要加以提炼甚至在商务知识专家引导下加以引导升华,和用户一起进行需求分析工作;不能满足用户的需求,项目也就失去原本的意义了.物理模型就像大厦的基础架构,就是通用的业界标准,无论是一座摩天大厦也好,还是茅草房也好,在架构师的眼里,他只是一所建筑,地基->层层建筑->封顶,这样的工序一样也不能少,关系到住户的安全,房屋的建筑质量也必须得以保证,唯一的区别是建筑的材料,地基是采用钢筋水泥还是石头,墙壁采用木质还是钢筋水泥或是砖头;当然材料和建筑细节还是会有区别的,视用户给出的成本而定;还有不可忽视的一点是,数据仓库的数据从几百GB到几十TB不等,即使支撑这些数据的RDBMS无论有多么强大,仍不可避免的要考虑到数据库的物理设计.接下来,将详细阐述数据仓库概念模型(业务模型),逻辑模型,物理模型的意义.概念模型设计进行概念模型设计所要完成的工作是:界定系统边界确定主要的主题域及其内容确定主题域的关系概念模型设计是,在原有的业务数据库的基础上建立了一个较为稳固的概念模型。
UML的数据仓库逻辑建模研究分析
![UML的数据仓库逻辑建模研究分析](https://img.taocdn.com/s3/m/e53ec06c59fb770bf78a6529647d27284b7337e9.png)
UML的数据仓库逻辑建模研究分析数据仓库逻辑建模是指通过UML(Unified Modeling Language)来对数据仓库系统进行分析和研究的过程。
在这个过程中,我们使用UML的视图、图和图表等工具来描述数据仓库系统的逻辑结构和行为。
首先,我们可以使用UML的用例图来描述数据仓库系统的功能和用户需求。
用例图可以帮助我们识别数据仓库系统的主要功能和主要用户,并定义各个功能之间的关系和交互。
例如,我们可以定义数据仓库系统的主要用例,如数据导入、数据查询、数据分析等,并通过用例之间的关系和依赖来描述它们之间的交互。
接下来,我们可以使用UML的类图来描述数据仓库系统中的实体和类之间的关系和结构。
类图可以帮助我们识别数据仓库系统中的实体、属性和关系,并定义它们之间的依赖和关联。
例如,我们可以定义数据仓库系统的主要实体类,如数据表、维度表、事实表等,并通过类之间的关联和依赖来描述它们之间的关系和结构。
此外,我们还可以使用UML的时序图来描述数据仓库系统中的事件和过程。
时序图可以帮助我们分析数据仓库系统中各个过程之间的时序关系和消息交互。
例如,我们可以通过时序图来描述数据仓库系统的数据导入过程,包括数据的来源、转换和加载等,以及数据查询和分析的过程,包括用户的请求、系统的处理和返回结果等。
最后,我们可以使用UML的活动图来描述数据仓库系统中的工作流程和业务逻辑。
活动图可以帮助我们分析数据仓库系统的业务流程和系统行为,并定义各个活动之间的控制流程和动作。
例如,我们可以通过活动图来描述数据仓库系统的数据清洗过程,包括数据的筛选、清洗和转换等,以及数据分析的过程,包括数据的统计、聚合和挖掘等。
综上所述,通过使用UML的视图、图和图表等工具,我们可以对数据仓库系统进行逻辑建模的研究和分析。
通过这些模型和图表,我们可以更好地理解数据仓库系统的结构和行为,并优化系统的设计和实现。
数据仓库逻辑建模是一个复杂而又关键的过程,它涉及到对数据仓库系统的需求分析、系统结构设计和系统行为分析等方面。
数据库数据模型中逻辑模型的定义
![数据库数据模型中逻辑模型的定义](https://img.taocdn.com/s3/m/3821f9b5cd22bcd126fff705cc17552706225e54.png)
数据库数据模型中逻辑模型的定义
在数据库设计过程中,逻辑模型是指对实际需求进行抽象和建模的过程,用于描述数据的组织结构、关系和约束。
逻辑模型的特点:
•逻辑模型更接近于真实世界的需求,而不是数据库管理系统的具体实现细节。
•逻辑模型使用概念和实体之间的关系来描述数据的逻辑结构。
•逻辑模型可以独立于数据库管理系统的特性进行设计和分析。
逻辑模型的常见类型:
1.关系模型:使用表格和关系来表示数据之间的关系。
2.层次模型:使用树形结构表示数据之间的层次关系。
3.网状模型:使用复杂的链接结构表示数据之间的关系。
通过使用逻辑模型,数据库设计者可以更好地理解和组织数据,从而提高数据库的可维护性和可扩展性。
注意:逻辑模型是数据库设计过程中重要的一步,需要详细考虑实际需求和数据之间的关系。
逻辑模型并用法
![逻辑模型并用法](https://img.taocdn.com/s3/m/4ed220a1e109581b6bd97f19227916888486b9b0.png)
逻辑模型并用法一、逻辑模型简介逻辑模型是数据模型的一种,它描述了数据之间的逻辑关系,而不涉及具体的物理实现。
逻辑模型是数据库设计的关键环节,它可以帮助数据库设计人员更好地理解数据结构和数据之间的关系,从而设计出满足需求的数据库。
逻辑模型通常使用以下几种方法来表示:1.实体关系图(ER图):ER图是一种使用图形符号来表示实体和实体之间关系的模型。
2.面向对象建模(OOM):OOM是一种使用类和对象来表示数据模型的方法。
3.关系代数:关系代数是一种使用数学公式来表示数据模型的方法。
二、逻辑模型用法逻辑模型可以用于以下几种目的:1.数据库设计:逻辑模型是数据库设计的关键环节,它可以帮助数据库设计人员更好地理解数据结构和数据之间的关系,从而设计出满足需求的数据库。
2.数据分析:逻辑模型可以帮助数据分析人员更好地理解数据之间的关系,从而进行更有效的分析。
3.数据管理:逻辑模型可以帮助数据管理人员更好地管理数据,确保数据的完整性和一致性。
三、逻辑模型的优点逻辑模型具有以下优点:1.易于理解:逻辑模型使用抽象的符号和概念来表示数据,因此易于理解和沟通。
2.可扩展性:逻辑模型可以扩展以满足新的需求。
3.可维护性:逻辑模型易于维护和更新。
四、逻辑模型的缺点逻辑模型也具有一些缺点:1.抽象性:逻辑模型是抽象的,因此可能难以理解和实现。
2.复杂性:对于复杂的数据系统,逻辑模型可能变得非常复杂。
五、总结逻辑模型是数据模型的重要组成部分,它可以用于数据库设计、数据分析和数据管理等多种目的。
逻辑模型具有易于理解、可扩展性和可维护性等优点,但也具有一定的抽象性和复杂性。
数据仓库逻辑模型介绍
![数据仓库逻辑模型介绍](https://img.taocdn.com/s3/m/78a8fd17b0717fd5370cdc08.png)
MDM
据
源
?数据集市 ?Data Mart
?面向分析主题
?汇总数据
提
?Star Schema 建模
供
?视图
一
个
?逻辑数据模型
统
?保留详细交易数据 LDM
一
?面向关键主题域
的
?3NF
数
据
组
?数据清洗/转换/加载
织
?文本文件
结
构
PLM
?面向业务应
用
?3NF
21
主题例子-财务(Finance)
财务 (Finance):
? 元数据为访问数据仓库提供了一个信息目录( information directory ),这个目录全面描述了数据仓库中都有什么数据、 这些数据怎么得到的、和怎么访问这些数据。它是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数 据,用户通过他来了解和访问数据。
12
一、概念 -6
? (6)数据粒度
13
一、概念 -7
? (7)OLAP 及其相关
? OLAP 、维度、事实、度量值 ? 切片、切块、上钻、下钻、旋转 ? 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
? (1)实施流程
?
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
数据集市
数据来源 OLTP 系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
数据库逻辑模型
![数据库逻辑模型](https://img.taocdn.com/s3/m/ff46fc61ce84b9d528ea81c758f5f61fb73628d9.png)
数据库逻辑模型数据库逻辑模型,又叫做逻辑数据模型,是数据库技术中一种重要的基本模型。
它处于物理数据存储和用户使用之间,它表示数据库信息和关系模型之间的映射。
它支持用户定义更通用的视图,可以分解成较低级别的视图,来支持与特定数据库之间的映射,从而扩展应用程序的功能,它可以使应用程序开发者更充分地表达自己的需求,以实现更丰富的应用。
数据库逻辑模型的构建是一种结构的设计,它是一种用于描述数据之间的关系以及如何从数据库中获取和整理信息的技术。
它包含了定义系统的属性,以及确定数据之间的关系的规则。
逻辑模型的最大特点在于它将数据从物理存储中分离出来,因此,在模型中可以实现复杂的关系,并可以更有效地持久化数据,并将其存储在指定的数据库中。
数据库逻辑模型分为三个基本结构,分别为实体,关系和属性。
实体表示一个可以创建或改变的独立的物理对象,它可以包括一个或多个概念或元素,以及可以定义实体之间的关系。
关系是一种映射关系,它定义了不同实体之间的联系,这样,数据库就可以实现数据之间的连接和查询。
最后,属性是实体的描述,可以定义实体的特性和特征,以及特定实体所具有的属性。
在实际应用中,数据库逻辑模型有很多优点。
它极大地提升了灵活性,可以大大降低维护成本,因为可以拆分数据,从而使其可以更容易地更新和维护,可以节省存储空间,减少重复存储的数据,并可以有效提高关系数据库的性能。
在数据库技术中,数据库逻辑模型是一种非常重要的模型,它把数据从物理存储中分离出来,提供了一种方便的方式来实现复杂的关系,有效利用存储空间,提高性能,降低维护成本,从而给企业应用和管理带来更大的便利,可以有效地支持企业更好地进行管控,降低企业的日常管理成本,产生更大的价值。
数据仓库逻辑建模
![数据仓库逻辑建模](https://img.taocdn.com/s3/m/4e9b8418227916888486d741.png)
数据仓库模型的特点对于传统的OLTP系统,我们总是按照应用来建立它的模型,换言之,OLTP系统是面向应用的。
而数据仓库则一般按照主题(Subject)来建模,它是面向主题的。
何谓应用?何谓主题?让我们来看一个简单的例子。
在银行中,一般都有对私(个人储蓄)、对公(企业储蓄)、信用卡等多种业务系统,它们都是面向应用的,所支持的交易类型简单而且固定。
由于实施的先后等原因,这些系统可能运行在不同的平台上,相互之间没有什么关系,各系统之间的数据存在冗余。
比如每个系统中都会有客户的数据,当针对银行建立其数据仓库应用时,要把上述生产系统中的数据转换到数据仓库中来。
从整个银行的角度来看,其数据模型不再面向个别应用,而是面向整个银行的主题,比如客户、产品、渠道等。
因此,各个生产系统中与客户、产品、渠道等相关的信息将分别转换到数据仓库中相应的主题中,从而在整个银行的业务界面上提供一个一致的信息视图。
数据仓库的建模方法逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。
目前较常用的两种建模方法是所谓的第三范式(3NF,即Third Normal Form)和星型模式(Star-Schema),我们将重点讨论两种方法的特点和它们在数据仓库系统中的适用场合。
什么是第三范式范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化(Normalize)。
在数据仓库的模型设计中目前一般采用第三范式,它有非常严格的数学定义。
如果从其表达的含义来看,一个符合第三范式的关系必须具有以下三个条件:1. 每个属性的值唯一,不具有多义性;2. 每个非主属性必须完全依赖于整个主键,而非主键的一部分;3. 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。
我们可以看到,第三范式的定义基本上是围绕主键与非主属性之间的关系而作出的。
数据库逻辑模型
![数据库逻辑模型](https://img.taocdn.com/s3/m/1830942abfd5b9f3f90f76c66137ee06eff94e05.png)
数据库逻辑模型数据库是一个存放和管理信息的系统,由于计算机技术发展,数据库应用变得越来越广泛,被大量使用。
这就需要一个更为完善的模型来支撑数据库应用,这就是数据库逻辑模型。
数据库逻辑模型是一种结构性体系,它以复杂的数据组织形式来表示现实世界的结构和实体,并且能够把细节的数据的表示转换成更加合理的数据结构。
数据库逻辑模型通常分为三种不同的基本模型,它们分别是关系模型、网状模型和层次模型。
三种基本模型的定义及它们之间的联系如下:关系模型:关系模型把信息作为表格表示,把相互关联的关系以表格的形式表达出来,每个表有几个列来表示信息,每一行表示一条记录,每一列表示一个属性。
网状模型:网状模型用网络元素表示信息,形成网络模型,并且实现程序开发以及数据管理。
网状模型包含两个概念:节点和链接。
节点是数据的物理存储单元,用节点的集合表示数据的物理结构,链接用来表示数据之间的逻辑关系。
层次模型:层次模型是由父子层构成的数据结构,描述了信息中联系关系和隶属关系,树形结构也是层次模型的一种特殊表示方式。
层次模型因为它的易用性,而被广泛的使用。
数据库的物理机构可能不同,但是它们的逻辑结构是相同的,因此需要数据库逻辑模型。
数据库逻辑模型的最终目的是确保数据的一致性,实现数据的有效管理。
相较于其它模型,数据库逻辑模型有很多优点。
首先它可以把细节的数据表示转换成更加完善的数据库模型,其次它可以实现数据的有效管理以及更高效的处理,最后它也能够有效支撑现实世界的复杂数据组织。
数据库逻辑模型被广泛的使用在许多不同的领域,它可以用于客户关系管理,可以用于网上购物,也可以用于媒体,教育等等。
其实数据库逻辑模型正成为一种不可或缺的部分,它对各种不同领域的数据库应用起到越来越重要的作用。
总之,数据库逻辑模型是一种高效、灵活、实用的模型,它已经成为今天不同领域数据库应用的重要组成部分,未来它也将发挥更加重要的作用。
金融业逻辑数据模型-数仓十大主题-LDM_当事人主题
![金融业逻辑数据模型-数仓十大主题-LDM_当事人主题](https://img.taocdn.com/s3/m/5a719e2b974bcf84b9d528ea81c758f5f61f293e.png)
金融业逻辑数据模型FS-LDM 当事人PARTY主题1 定义/准入原则当事人(Party)是指银行所服务的任意对象和感兴趣进行分析的各种对象。
如:个人或公司客户、同业客户、潜在客户、代理机构、雇员、分行、部门等,一个当事人可以同时是这当中的许多角色。
当事人是一个独立的人或者一组人组成的机构、团体等,可分为个人、机构和家庭,他们是和银行有往来或者出于市场营销、分析管理等各种需要而希望关心和分析的个体或人群。
从数据仓库模型角度考虑,可以包括以下当事人信息:⏹在银行登记注册开立账户的单位/企业客户⏹在银行登记注册开立账户的个人普通客户⏹和银行有业务往来的其他金融机构(如国内同业、海外代理行等)⏹登记注册使用某项特殊服务的客户(如基金注册登记机构、基金交易客户、银行卡特约单位、联名认同单位、电子银行缴费单位/个人、网银集团客户/贵宾企业/商户/学校、航空公司等)⏹机构的内部组织(如分支机构、部门、团队等)⏹机构的员工(如柜员、客户经理等)⏹外部机构提供清单(如人行征信系统、国家统计局等)上银行感兴趣的各种对象⏹为银行提供某项专业服务的当事人(如咨询公司、设备提供商、法律顾问等)2 唯一标识当事人的唯一标识是“当事人编号”,该字段可以直接取自原业务系统中的唯一客户编号(可能需要加工,区分对公、个人和机构等),也可以由数据仓库系统按照一定的规则自行编制一个唯一编号。
3 当事人分类当事人分为个人当事人、机构当事人、家庭三类,机构当事人又分为内部机构和外部机构,外部机构又细分成“商业组织机构(企业)”和“非盈利组织机构(协会)”。
此外,“当事人”实体还可以通过“潜在客户标志”、“提供商标志”等字段实现其他口径不排他的分类。
⏹提供商信息:记录提供商的信息,如法律顾问、咨询家、财务顾问等和银行往来的历史记录等;⏹潜在客户信息:该实体记录银行所感兴趣的各种潜在客户的信息;⏹机构名称历史:记录机构的名称的变更历史,包括过去的、现在的正式名称、简称等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
一、概念 -4
(4)数据加载策略
更新(Upsert、delete/insert) 拉链(时间拉链/自拉链, 历史) 追加(直接insert,防止重复加载先delete当天) ✓ 当前表、历史表、流水表
10
一、概念 -5 (5)元数据
元数据:是描述数据仓库内数据的结构和建立方法的数据。 可将其按用途的不同分为两类,技术元数据和商业元数据。
业务元数据从业务的角度描述了数据仓库中的数据。它提供 了介于使用者和实际系统之间的语义层,使得不懂计算机技 术的业务人员也能够“读懂”数据仓库中的数据。使用者的 业务术语所表达的数据模型、对象名和属性名;访问数据的 原则和数据的来源;系统所提供的分析方法以及公式和报表 的信息。
元数据为访问数据仓库提供了一个信息目录(information directory),这个目录全面描述了数据仓库中都有什么数据、 这些数据怎么得到的、和怎么访问这些数据。它是数据仓库 运行和维护的中心,数据仓库服务器利用他来存贮和更新数 据,用户通过他来了解和访问数据。
(1)为什么要建设数据仓库?
统一数据源 统一数据标准
5
一、概念 -2
(2) ODS、数据仓库、数据集市
操作数据存储(Operational Data Store)是一个面向主题的、 集成的、可变的、当前的细节数据集合,用于支持企业对于 即时性的、操作性的、集成的全体信息的需求。常常被作为 数据仓库的过渡,也是数据仓库项目的可选项之一。
技术元数据是数据仓库的设计和管理人员用于开发和日常管 理数据仓库时用的数据。包括:数据源信息;数据转换的描 述;数据仓库内对象和数据结构的定义;数据清理和数据更 新时用的规则;源数据到目标的数据映射;用户访问权限, 数据备份历史记录,数据导入历史记录,信息发布历史记录 等。
11
一、概念 -5 (5)元数据
19
二、数据仓库实施方法论 -5
(5)数据模型的演变
概念数据模型(CDM) 逻辑数据模型(LDM) 扩展逻辑数据模型(ELDM) 物理数据模型(PDM)
20
三、LDM -1
(1)逻辑模型在仓库中的地位
•最终用户
数据仓库
ETL服务
AT&T
器
ODS
数
LEM心 GVS
MDM
据
源
•数据集市 •Data Mart
(3)ETL
ETL是数据抽取(Extract)、转换(Transform)、清洗 (Cleansing)、装载(Load)的过程。
是构建数据仓库的重要一环,用户从数据源抽取出所需的数 据,经过数据清洗,最终按照预先定义好的数据仓库模型,将 数据加载到数据仓库中去。
ETL主要解决各源数据的异构性和低质量(标准化、清除噪声
财务(Finance):主要包括的总帐信息,是描述科目组织、控
制、内部核算等银行核心科目帐务以及预算管理有关的内容。该
主题抽象地描述了内部帐务的组织模式,能够适应不同的科目组
织体系。
22
四、个人学习经验
(1) 体系结构、SQL语法 (2)结合逻辑模型看脚本
源系统简称、代码 各主题标识生成规则 仓库代码 源系统数据字典
15
二、数据仓库实施方法论 -2
(2)信息调研
源系统调研 数据源分析 数据质量分析 数据缺口分析 数据更新周期及更新方式分析 用户需求分析
内部培训 源系统介绍 数据字典整理 样本数据分析 表级和字段级分析
16
二、数据仓库实施方法论 -3
(3)逻辑数据模型设计
基于概念数据模型(CDM) 由一系列表和实体详细描述组成 通用的业务语言 便于业务与业务之间的功能理解 集成当前和未来数据的蓝图 独立于技术 为物理数据库设计作准备 是IT人员和业务人员沟通的工具
6
一、概念 -2
ODS与数据仓库
共同点:面向主题的和集成的,需要进行转换、加工处理 区别:主要体现数据的可变性和当前性上
ODS 实时的、可动态刷新的 当前运行系统的数据
明细数据
数据仓库 非实时的、静态的 除了保存当前数据,还需 要保存大量的历史数据 保存明细和汇总数据
7
一、概念 -2
数据仓库
12
一、概念 -6
(6)数据粒度
粒度是指数据仓库的数据单位中保存数据的细化或综合程度 的级别(详细程度 )。细化程度越高,粒度级就越小;相反, 细化程度越低,粒度级就越大。
取决于:数据量大小 、存储设备的容量、查询分析的需要 一定的时间窗内存放细的粒度数据,超过一定的时期,只提
供粗粒度的汇总数据,从而在性能与需求上达到一种平衡。
数据仓库是面向主题的、集成的、稳定的(不可更新)、反映 历史变化(不同时间)的数据集合,用以支持经营管理中的 决策制定过程。(Inmon,1991)
数据集市也可叫做“小数据仓库”。如果说数据仓库是建立 在企业级的数据模型之上的话。那么数据集市就是企业级数 据仓库的一个子集,他主要面向部门级业务,并且只面向某 个特定的主题。数据集市可以在一定程度上缓解访问数据仓 库的瓶颈。
17
二、数据仓库实施方法论 -3
(3)逻辑数据模型设计
了解业务流程 分析源数据 建立实体模型 建立实体间依赖关系 填写并完善实体属性
18
二、数据仓库实施方法论 -4
(4)物理数据库设计
转换逻辑模型为物理模型 定义主索引、次索引 非正则化处理 数据库建立 设计优化 数据库功能测试
•面向分析主题
•汇总数据
提
•Star Schema 建模
供
•视图
一
个
•逻辑数据模型
统
•保留详细交易数据 LDM
一
•面向关键主题域
的
•3NF
数
据
组
•数据清洗/转换/加载
织
•文本文件
结
构
PLM
•面向业务应
用
•3NF
21
主题例子-财务(Finance)
财务 (Finance):
协议主要指的 是订单和合同 及OLAP及其相关
OLAP、维度、事实、度量值 切片、切块、上钻、下钻、旋转 星型模型、雪花模型
14
二、数据仓库实施方法论 -1
(1)实施流程
需求分析
系统设计
系统开发
上线与维护
项目 前期 准备
业务调研(BD)
应用开发
业务 访谈
业务 需求 编写
业务 需求 分析
应用 概要 开发
数据仓库逻辑模型介绍
数据仓库逻辑模型介绍
Tony 2010-3-15
内容
相关概念介绍 数据仓库实施方法论 LDM介绍 学习经验分享
2
一、概念 -1
(1)为什么要建设数据仓库?
蜘蛛网问题
✓ 数据缺乏可信性 ✓ 数据处理效率低下 ✓ 难以将数据转化为信息
3
图1 蜘蛛网现象 4
一、概念 -1
23
数据集市
数据来源 OLTP系统、外部数据 数据仓库
范围
企业级
部门级或工作组级
主题
企业主题
部门或特殊的分析主题
数据粒度 最细的粒度
较粗的粒度
数据结构 规范化结构(第3范式)星型模式、雪花模式、或 两者混合
历史数据 大量的历史数据
适度的历史数据
优化
处理海量数据、数据 便于访问和分析、快速查
探索
询
8
一、概念 -3
应用 详细 设计
应用 应用 模型 开发
开发
数
据
挖
掘
服
逻辑 物理 系统
务
信息调研(ID)
数据 模型
数据 体系 ETL 模型 结构 开发
设计 设计 设计
系
元 数 据 管
理
统 软 件 硬 件 设 备 安
系 统 管 理 与 维
护
系 统 测 试 与 验
收
项目 结束 回顾
装
项目管理(Project Management)