数据集市

合集下载

绩效数据集市标准工作流程图

绩效数据集市标准工作流程图
需求分析
数据调研
绩效数据集市标准工作流程图
系统工作单
业务需求分析 组织会议讨论
是否有问题 Y
N
编写需求规格 说明书
需求问题整理
需求评审
修改需求规格 说明书
是否评审通过 N
发布需求规格
Y
说明书
(定稿)
整理评审问题
编写数据质量 分析报告
N
是否有问题 Y
上游接口服务 单
整理数据问题 清单
开发调度工具 评估数据建模 Nhomakorabea系统设计
数据研发
系统测试
开发规范培训
数据开发
开发环境申请 与搭建
代码质量检查
是否通过检查 Y 发布基线版本 N
修改代码
UAT测试
UAT测试报告 Y (业务签字)
是否通过
UAT测试 培训
Y
是否通过 N
N
修复BUG
SIT测试
测试数据提取 申请单
测试环境申 请与搭建
召开测试准备 会议(业务、 上下游系统)
测试案例准备
投产申请
投产版本打包 准备
投产文档提交
投产评审
是否通过
Y 上线投产
N
修改评审 问题
投产试运行 验证
项目验收报告 (签字)
投产验证
数据模型分析
数据分析
组织会议讨论 并拿出数据问 题解决方案
数据建模
填写数据提取 申请单
模型评审
组织会议确定 数据分布范围
数据需求调研
是否评审通过 Y N
修改数据模型
发布数据模型 接口文档 (定稿)
发布详细设计
说明书
Y 是否通过评审
(定稿)

数据仓库和数据集市的区别

数据仓库和数据集市的区别

数据仓库和数据集市的区别数据仓库与数据集市看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:(1) 基本概念(2) 为什么提出数据集市(3) 数据仓库设计方法论(4) 数据集市和数据仓库的区别(5) 仓库建模与集市建模(6) 案例分析:电信CRM数据仓库Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是十分重要而迫切的!通常在考虑建立数据仓库之前,会涉及到如下一些问题:(1) 采取自上而下还是自下而上的设计方法(2) 企业范围还是部门范围(3) 先建立数据仓库还是数据集市(4) 建立领航系统还是直接实施(5) 数据集市是否相互独立一、基本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准RDBMS 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。

这种类型的数据仓库设计被称为原子数据仓库。

原子数据仓库的子集,又称为数据集市。

大数据:数据仓库和数据集市的比较

大数据:数据仓库和数据集市的比较

大数据:数据仓库和数据集市的比较随着科技的发展,数据成为了当下最热门的话题之一。

随着互联网的普及和各行各业的信息化建设与发展,数据规模与数据类型也日益增加。

面对如此巨大的数据量,如何正确地处理和分析数据,如何从中发现有价值的信息,也日益成为了各个企业必须面对的挑战。

在处理这些大数据时,数据仓库和数据集市是两种常见的数据存储和分析方式。

本文将详细比较数据仓库和数据集市的优缺点。

一、数据仓库数据仓库是指将企业内部不同系统中的数据进行收集和汇总,形成一个一致且具有高性能的数据存储库,并且保证数据的一致性、可更新性和可查询性。

数据仓库的主要特点:1、定期批量更新数据:数据仓库通常会对企业内部的数据进行定期批量的更新,而且一般是在业务量相对较小时进行。

2、面向历史:数据仓库主要面向数据的历史信息,针对的是过去的数据。

3、专注于查询:在数据仓库中,主要对数据进行查询操作。

4、主题导向:数据仓库是围绕着业务主题进行组织的,它包含了企业整个业务的各个方面。

数据仓库的优点:1、高效性:基于数据仓库的数据分析拥有更高的业务性能,用于大量数据处理时更加简单、高效。

2、数据一致性好:由于数据仓库的数据集中存储,因此能够保证数据的一致性。

3、适用于大型企业:数据仓库的搭建需要较高的成本,会考虑到企业经营的全局信息。

数据仓库的缺点:1、对实时更新的需求差:数据仓库的数据一般是较为静态的,更新时延相对较高。

2、对数据的一致性要求高:数据仓库在数据插入、更新、删除等操作上的成本相对更高,因此数据的一致性也更加重视。

3、可变性不强:数据仓库在建库时便需要考虑到全局信息,所以数据的构建相对比较稳定。

二、数据集市数据集市是指将企业内部不同系统中的数据进行收集,然后根据需要进行分类、整合、清洗、分析等操作,组成具有相同语义的业务数据集合,提供给业务部门,以支持各个业务部门的分析需求和决策需要。

数据集市的主要特点:1、实时更新:数据集市需要及时更新数据,这样业务部门才能随时获取到最新的数据信息。

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS01数据流向02应用示例03何为数仓DWData warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。

数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

目前行业比较流行的有:AWS Redshift,Greenplum,Hive等。

数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包含:清洗、转义、分类、重组、合并、拆分、统计等主要特点•面向主题▪操作型数据库组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。

▪主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通过与多个操作型信息系统相关。

•集成▪需要对源数据进行加工与融合,统一与综合▪在加工的过程中必须消除源数据的不一致性,以保证数据仓库内的信息时关于整个企业的一致的全局信息。

(关联关系)•不可修改▪DW中的数据并不是最新的,而是来源于其他数据源▪数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询•与时间相关▪处于决策的需要数据仓库中的数据都需要标明时间属性与数据库的对比•DW:专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势•数据库:用于捕获和存储数据04为何要分层数据仓库中涉及到的问题:1.为什么要做数据仓库?2.为什么要做数据质量管理?3.为什么要做元数据管理?4.数仓分层中每个层的作用是什么?5.…...在实际的工作中,我们都希望自己的数据能够有顺序地流转,设计者和使用者能够清晰地知道数据的整个声明周期,比如下面左图。

但是,实际情况下,我们所面临的数据状况很有可能是复杂性高、且层级混乱的,我们可能会做出一套表依赖结构混乱,且出现循环依赖的数据体系,比如下面的右图。

数据仓库分层建设的基本思路

数据仓库分层建设的基本思路

数据仓库分层建设的基本思路
数据仓库分层建设的基本思路如下:
1. 数据源层:这是数据仓库的基础,包含了各种原始数据,来自不同的业务系统、数据库、文件等。

2. 数据存储层:数据经过抽取、转换和加载(ETL)过程后,被存储在这一层。

它可以是关系型数据库、列式存储、NoSQL 数据库或数据湖泊等。

3. 数据处理层:在这一层,对数据进行清洗、转换、脱敏、标准化等处理,以提高数据质量和可用性。

4. 数据集市层:根据不同的业务主题或部门需求,将处理后的数据组织成数据集市。

数据集市通常是针对特定主题或业务领域的数据集合。

5. 数据应用层:这是数据仓库的顶层,为用户提供各种数据分析和应用工具,如报表、仪表盘、数据挖掘、机器学习等。

6. 元数据管理层:元数据用于描述数据仓库中的数据、处理过程和数据模型等信息。

元数据管理层负责管理和维护元数据,确保数据的一致性和可追溯性。

7. 数据质量管理层:数据质量是数据仓库的关键要素之一。

这一层负责监控和管理数据质量,包括数据清洗、数据验证、数据监控等。

通过分层建设,数据仓库可以更好地组织和管理数据,提高数据的质量和可用性,满足不同用户的需求。

同时,分层结构也有利于数据仓库的扩展、维护和性能优化。

在实际建设过程中,可以根据具体业务需求和数据特点,对分层结构进行适当调整和优化。

操作数据存储ODS和数据集市详解

操作数据存储ODS和数据集市详解
ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结 构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽 取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接 口、数据量大小、抽取方式等方面的问题。
转移一部分业务系统细节查询的功能
在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的, 在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大 的压力。
实际中往往会有实时决策的需求,上述两者都不能满足要求, 因此产生了ODS
ODS数据环境:一方面提供全局一致的、细节的、当前的数据, 可进行联机事务操作型处理。另一方面是一种面向主题的集成 的数据环境。数据量小,可辅助完成日常决策的数据分析处理,
同时可以保护投资,保留现有的应用系统。
1 ODS的定义和特点
另一方面,在DB-ODS-DW三层结构中,中间件也是 将ODS中的信息与DW系统中的信息相关联的一条途径。
3 建立ODS
3.2 ODS系统设计
物理实现
定义每个主题的数据抽取周期、抽取时间、抽取方式、 数据接口,抽取流程和规则。
物理设计不仅仅是ODS部分的数据库物理实现,设计数 据库参数、操作系统参数、数据存储设计之外,有关数 据抽取接口等问题必须清晰定义。
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Local Metadata
Data Mart
RDBMS
MidTier
OLTP Tools
MidTier
MDB
End-User DW Tools
Source Hub - Data Extraction, Central Data Ware-

数据仓库数据集市概念区别

数据仓库数据集市概念区别

数据仓库数据集市概念区别数据集市≠数据仓库NCR公司可扩展数据仓库解决⽅案⼩组王闯⾈编译我们知道,决策⽀持系统(DSS)主要有两种实现⽅式,即建⽴⼀个数据集市或者⼀个数据仓库。

到底哪⼀种更能满⾜决策⽀持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的⼀个话题。

在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12⽉的⼀篇论⽂中提出,"数据仓库只不过是⼀些数据集市的集合⽽已"。

认为企业多建⽴⼀些数据集市,将来⾃然就形成了数据仓库。

⽽业界公认的数据仓库之⽗ Bill Inmon在今年1⽉⽴即撰⽂反驳,旗帜鲜明地指出,"你可以在⼤海中捕到很多的⼩鱼并堆积起来,但它们仍然不是鲸"。

在5⽉份的《数据管理综述》(DataManage ment Review)中,Bill Inmon⼜发表了"数据集市不等于数据仓库"的论⽂,进⼀步阐述两者在本质上的区别以及各⾃的适⽤场合,本⽂就是根据这篇论⽂的主要内容编译⽽成的。

问题的提出现在,各企业IT部门的经理所⾯临的最主要问题之⼀是先建⽴数据仓库还是先建⽴数据集市。

长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建⽴数据仓库⽐较复杂,投资过⼤,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资⽅案难以得到企业管理层的批准。

数据集市供应商们给业界描绘了⼀幅数据仓库前景暗淡的图画,这完全是出于⾃⾝的⽬的,是不正确的。

数据集市供应商们把数据仓库当成其增加营业收⼊的绊脚⽯,⾃然要避开和攻击数据仓库。

事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。

持数据集市主张的⼈认为,决策⽀持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。

⽅法之⼀就是建⽴多个数据集市,当它们增加得⾜够⼤时,那就是所谓的数据仓库了。

数据集市设计原则

数据集市设计原则

数据集市设计原则数据集市(DM)这里我们先回忆一下数据仓库的定义,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合用于支持管理决策。

更多关于数据仓库的可以参考数仓架构发展史,而且前面我们也介绍了大量关于数仓建模这一块的内容,具体可以参考我们的专栏数仓建模方法论。

今天我们介绍一个在数仓中非常常见的概念——数据集市,数仓定义中的五个特性都值得一一仔细品味,随着你对数仓的理解加深,你对这个五个特性的理解也会更加全面。

首先数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据并且存放在数据仓库中的数据一般不再修改。

什么是数据集市(DM)这里有一个词是主题,那就是我们集成后的数据,又按照了主题进行了划分,而面向主题划分出来的部分就是数据集市,也就是说数据集市是数据仓库的一个子集或者说是集成后的子集。

数据集市通常是面向部门的或者是部门级业务,或者是面向部门的主题的,举个例子例如在金融领域可能会有结算部门的数据集市、风控部部门数据集市、市场部门的数据集市、运营部门的数据集市,这里的特点就是面向部门的,但是对于有的部门它的组织结构可能比较大,所以它所负责的业务线也有多个,这个时候就会出现,数据集市是面向部门的子业务,总之一句话,数据集市是面向主题的,一般公司的主题就是部门或者业务线。

这里还有一点要强调数据集市是作为我们数仓的一层,对外提供数据服务,当然提供服务的方式是有很多种的,但是最终我们是将数据集市层的数据提供出去的,也就是说这一层是面向用户的。

为什么要有数据集市上面了解了什么是数据集市,接下来我们就看看一下为什么要有数据集市,开始之前我们线回顾一下前面的数仓建模分层理论,我们知道了数仓最简单的就是ODS+DM,但为什么我们还要分层,在文章中我们解释了分层的意义是什么,如果你忘记了可以看一下前面的文章。

数据集市的架构和融合

数据集市的架构和融合

数据挖掘
数据分析
数据获取
数据采集 B2B-CBU版权所有
数据处理
12
CONTENTS 目录
谈谈架构
框架基础 信息检索模型 投资人推荐 数据运用
谈谈架构>框架基础
第三方 合作
线下 数据
主动 抓取
线上 业务
数据采集服务
数据清洗,实体抽取 业务知识,归一化
用户基本
BI报表
数据集市的架构和融合
CONTENTS 目录
公司动态 数据之旅 谈谈架构
CONTENTS 目录
数据之旅
数据之于P2P 数据之于你我贷
数据之旅>数据之于P2P
大数据技术在P2P的应用
- 线上获客能力 - 线上风控能力 - 客户关系管理 - 其他
数据之旅>数据之于你我贷
数据在你我贷之旅 — 带你走进数据的世界
谈谈架构>信息检索模型
信息检索模型
谈谈架构>投资人推荐
投资人推荐
谈谈架构>数据运营
数据运营
Q&A
期待与您分享更多
THANKS
贷后 管理
灵 活

产品推荐 营销算法



用户社交 关系图谱
安 全
分布式存储 + 分布式计算 (文件系统,hadoop, MySQL等)
第三 方服 务
催收
投资 用户 管理
信用 上报
VAS
其他 . ..
用户生命 周期建模
扩 展
贷款用户 风控建模
专家系统 业务规则
其他 …
线下合作 单位信息
网站业务 数据

数据集市DataMart

数据集市DataMart

数据集市DataMart数据集市数据集市(Data Mart),也叫数据市场,为满⾜特定的部门或者⽤户需求,按照多维的⽅式进⾏存储,包括定义维度、需要计算的指标、维度的层次等,⽣成⾯向决策分析需求的数据⽴⽅体。

数据集市,迎合了专业⽤户群体的特殊需求,包括分析、内容、表现,以及易⽤性⽅⾯。

数据集市,是企业级数据仓库的⼀个⼦集,主要⾯向部门级业务,只⾯向某个特定的主题。

来源数据集市数据来源于企业范围的数据库、专业的数据仓库。

数据仓库与数据集市的区别指标数据仓库数据集市数据来源遗留系统、外部数据数据仓库范围企业级部门级或⼯作组级主题企业主题部门或特殊的分析主题数据粒度最细的粒度较粗的粒度数据结构规范化结构、星型模型、雪花模型星型模型、雪花模型历史数据⼤量的历史数据适度的历史数据优化处理海量数据/数据探索便于访问和分析/快速查询索引⾼度索引⾼度索引特征规模⼩特定的应⽤⾯向部门由业务部门定义、设计和开发业务部门管理和维护快速实现购买较便宜投资快速回收⼯具集的紧密集成提供更详细的、预先存在的、数据仓库的摘要⼦集可升级到完整的数据仓库数据结构通常为星型结构或雪花结构。

⼀个星型结构包括:事实表和维表。

事实表事实表描述数据集市中最密集的数据。

例如,呼叫中⼼的呼叫数据;银⾏中⾃动柜员机的数据;零售业的销售数据、库存数据等;维表维有围绕着事实表建⽴,通过外键与事实表相连。

数据集市类型独⽴型独⽴型数据集市的数据来⾃于操作型数据库,是为了满⾜特殊⽤户⽽建⽴的⼀种分析型环境。

优点:开发周期较短⽐较灵活缺点:脱离数据仓库容易形成信息孤岛不能以全局的视⾓去分析数据从属型从属型数据集市的数据来⾃于企业的数据仓库。

优点:体系结构⽐独⽴型数据集市更稳定提⾼了数据分析的质量保证了数据⼀致性缺点:开发周期较长。

MicroStrategy数据集市报表

MicroStrategy数据集市报表

1.1.1什么是数据集市?一个数据集市指的是一个包含报表结果的数据库表,报表通过Desktop创建,数据集市报表存储在你指定的数据仓库。

当你创建数据集市后,你可以将其加入项目,作为其它的报表执行的数据源。

数据集市通常用于:z创建一个聚合表z为大的结果集创建数据库表,供其它如Microsoft Access 和Microsoft Excel的应用程序访问z为离线分析创建数据库表1.1.2数据集市对象创建数据集市需要创建两个对象:z数据集市报表 - 使用报表编辑器创建的一个元数据库对象,当数据集市报表运行后,会在指定的数据仓库中创建数据库表。

数据集市报表包含实体、度量和其它的应用对象,这些对象被转换为数据集市数据库表中的字段。

z数据集市数据库表 - 在数据集市报表运行后创建的关系型数据库表。

1.1.3数据集市数据库实例当你创记建一个数据集市报表的时候,你必须指定一个数据库实例用来创建数据集市报表。

要创建一个数据集市实例的方式有如下的选择:z选择一:使用创建数据集市的项目所使用的数据库实例z选择二:使用和项目数据库实例不同的数据库实例,但是在同一个数据仓库中z选择三:使用和项目数据库实例不同的数据库实例,并且使用不同的数据仓库下列图解释了这三种方法的不同:如果你使用的和项目相同的数据库实例,那么在创建数据集市报表的时候指定其为数据集市数据库实例。

注:后面将介绍如何创建数据集市如果你选择后两种选择,希望使用不同的数据库实例,那么你必须首先创建数据库实例。

然后在创建数据集市报表的过程中指定该信息。

要使用不同于项目数据库实例的数据库实例,需要完成下列的步骤:1、使用数据库实例管理器,创建数据集市要使用的数据库实例。

注意:创建数据库实例在启动和连接课程中详细的介绍2、打开项目配置表辑器,选择数据库实例目录,在可用的数据集市和自由格式SQL数据库实例项下,选中要用于数据集市的数据库实例旁边的检查框。

注意:可以点击新建来创建新的数据库实例。

浅谈银行数据仓库:数据集市建模思路——监管报送项目的数据集市建模实践

浅谈银行数据仓库:数据集市建模思路——监管报送项目的数据集市建模实践

浅谈银⾏数据仓库:数据集市建模思路——监管报送项⽬的数据集市建模实践前⾔:数据集市的⽬标数据集市,是数据仓库 ADM 层最主要的数据形态,应⽤在特定业务场景的⾼度汇总数据,⽀持特定⼈员或部门进⾏数据分析、统计、决策等⾏为。

(数据仓库分层架构及建设思路可查阅作者的《浅谈银⾏数据仓库的构建之路》)概念理解起来不难,难在如何制定数据集市的落地⽅式,这时必须结果导向,从实现⽬标进⾏反推。

数据集市的⽬标从概念可以了解,数据集市是应⽤在特定业务场景的,专门⽀持特定⼈员或部门的数据集,所以数据集市的⾸要⽬标是满⾜特定⼈员或部门提出的业务场景。

⽐如报表集市,业务⼈员要求的是按照需求⽂档开发出固定报表查询即可,可是开发团队却开发出⼀张张⼤宽表给业务⼈员进⾏⾃助查询,希望业务⼈员通过⼤宽表就可以随时设计出⾃⼰想要的报表,最终业务⼈员愿意买账吗?数据集市是以实现特定⼈员或部门提出的特定业务场景为⽬标进⾏设计。

数据集市的模型数量有标准要求吗?别⼈家⼀个数据集市少则⼗⼏个模型,多则上百个模型,是否模型数量达到⼀定程度才能称为数据集市?还是从⽬标出发,数据集市是为了实现特定业务场景⽽设计,⽽业务场景也是有⼤⼩之分的。

⼩的业务场景可能⼀张报表就可以实现,⽐如 2020 年度单位存款基础数据报送要求,⼤的业务场景确实需要上百个模型来⽀持,⽐如零售管理部的营销分析集市。

⽆论是⼀张报表还是上百个模型,都属于实现了特定业务场景的数据集市。

当然,数据集市过⼩,⽐如上述的⼀张报表,会合并到⼤的数据集市中,⽐如报表集市,为了更好实现维护与管理。

数据集市的模型数量没有标准要求,关键是能否实现⽬标。

数据集市的建模⽅式有标准要求吗?⽬前主流的标准建模⽅式有三类:1)星型模型最常⽤的建模⽅式,模型由⼀个事实表与⼀组维表连接⽽成,维表只能与事实表关联,维表间不能关联,犹如被多个卫星环绕核⼼⾏星的系统,所以称为星型模型。

2)雪花模型雪花模型同样由⼀个事实表与⼀组维表连接⽽成,对⽐星型模型,雪花模型的维表是由⼤维表与⼩维表连接⽽成,这样⼤维表与⼩维表之间⼜形成⼀个星型模型。

数据仓库和数据集市

数据仓库和数据集市

数据仓库和数据集市上海复旦德门软件有限公司 朱建秋 博士企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。

各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。

由于术语定义不统一,另外各个供应商销售策略不一样,往往会给企业带来很大的混淆。

最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级的数据集市?本文试图说明这两个概念之间的区别和联系,以期对具体的数据仓库项目有所裨益。

1.为什么会出现数据仓库和数据集市?“数据仓库”的概念可以追溯到80年代中期。

从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。

在缺乏“数据仓库”体系结构的情况下,早期的决策支持环境如图1所示。

企业内部存在许多冗余的、重复建设的决策支持系统(通常是报表系统),这些系统被不同类型的用户使用,数据的抽取层次复杂,最初在OLTP 上抽取,再在抽取后的数据集上抽取,如此等等,呈“蜘蛛网”状,由于没有公共的数据源,并且数据没有时间点,导致了产生的报表可信度下降,数据不一致问题特别显著,更不用说转化为有效的决策信息。

为了解决上述问题,数据仓库应运而生。

数据仓库构建了一种以集中式的数据存储为核心的体系结构,数据存储的模式为了适应决策分析的要求,从而形成一种与原来业务系统构OLTP数据源 复制的数据集 最终用户开发的报表环境图1:早期的决策支持系统图2:数据仓库体系结构成的操作型环境(OLTP )相独立的决策支持环境。

数据仓库最基本的体系结构如图2所示。

图2所示的以数据仓库为基础的决策支持环境,要求数据仓库能够满足所有最终用户的需求。

然而,最终用户的需求是不断变化的,而且各种类型的用户对信息的需求也不一样,这就要求数据仓库存储的数据具有充分的灵活性,能够适应各类用户的查询和分析。

另一方面,最终用户对信息的需求必须易于访问,能够在较高的性能上获得结果。

数据集市集成企业级数据仓库的研究

数据集市集成企业级数据仓库的研究
西安 翻译学 院学报
J o u r n a l o f Xi ’ a n F a n y i U n i v e r s i
◎计算机科学应用
数 据 集 市 集 成 企 业 级 数 据 仓 库 的 研 究
王静 婷
( 西安 翻译 学院 工程技术学 院 ,陕西 西安 7 1 0 1 0 5 )

要: 本文分析 了数据仓库的基本结构 以及数据仓库和数据集市 的不 同 ,给出 了从实 际出发分步骤 建
立数据集市集成企业级数据仓库的基本思路 ,进而形成 以数据仓库 + 数据集市 +终端用户 为方案的三层数 据
仓库构架 。
关键词 : 数据仓库 ;数据集市 ;数据模型
中 图分 类 号 :T P 3 9 1 文 献 标 识 码 :A 文章 编 号 :X X X X — X X X X( 2 0 1 3 )0 1 - 0 0 4 4 - 0 3
息 ,及 时准确 地把握 市场 变化 的脉 搏 ,做 出正 确
有效 的判 断 和 抉 择 。从 各 级 决 策 者 的 角 度 来 看 ,
为 了对整 个组 织 的业 务 、需求 及 未来 趋 势做 一 个 全 面的分 析 ,不 仅 要 求 访 问 数 据 库 的 当前 数 据 ,
还需 要访 问一 些历 史数 据 。为 了能方 便 地进 行 这 种分 析 ,数据 仓库 应运 而生 。 数据 仓库 就是 针对解 决 上述 问 题所 产 生 的一 种 技术 方案 ,是基 于大 规模 数据 库 的决 策 支 持 系 统 环境 的核 心 。数 据仓 库是 以关 系数 据 库 、并行
立部 门级数 据仓 库—— 数 据集 市 ,不 失 为一 个 较 好 的选 择 。尤 其 对 于 那 些 迫 切 需 要 支 持 O L A P、

数据集市_精品文档

数据集市_精品文档

数据集市引言:随着大数据时代的来临,数据已经成为企业决策、创新的关键因素。

数据集市作为一种新型的数据组织形式,在数据处理、分析和利用方面具有显著的优势。

本文将深入探讨数据集市的概念、架构、类型、数据质量、扩展性、安全与隐私保护以及未来发展与挑战。

一、数据集市的概念数据集市是一个面向特定业务场景的数据存储和组织形式,旨在提供高效的数据查询、分析和可视化功能。

数据集市基于数据仓库技术,通过集中存储和管理结构化数据,为决策支持系统提供支持。

二、数据集市的架构数据源:包括各种结构化和非结构化数据,如关系型数据库、数据仓库、文件系统等。

数据集成工具:用于从数据源抽取、转换和加载数据到数据集市中。

数据存储与管理:采用分布式存储技术,实现高效的数据存储和管理。

数据查询与分析工具:提供可视化界面和工具,支持用户进行数据查询、分析和挖掘。

三、数据集市的类型独立数据集市:独立于企业级数据仓库,自成一体,适合部门级数据分析。

联邦数据集市:与企业级数据仓库相辅相成,通过联邦查询实现跨数据集市和数据仓库的数据分析。

嵌入式数据集市:将数据集市的功能集成到企业级应用中,为用户提供即时的数据分析服务。

四、数据集市的数据质量数据清洗:去除重复、错误和不一致的数据,确保数据的准确性和完整性。

数据验证:通过规则和约束检查数据的合规性和正确性。

数据标准化:将不同来源的数据进行统一处理和转换,确保数据的可比性和可理解性。

数据质量监控:实时监测数据的变化和异常,及时发现并解决数据质量问题。

五、数据集市的扩展性分布式存储与计算:采用分布式存储和计算技术,实现海量数据的存储和高效处理。

可扩展性设计:模块化设计,可根据业务需求灵活扩展存储容量、计算能力和分析功能。

水平扩展:通过增加节点数提高数据处理能力,适用于大规模数据处理和高并发请求场景。

垂直扩展:通过升级硬件设施增强服务器性能,提高单节点处理效率。

混合扩展:同时采用水平扩展和垂直扩展策略,根据实际需求进行优化配置。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据集市概述数据集市也叫数据市场,是一个从操作的数据和其他的为某个特殊的专业人员团体服务的数据源中收集数据的仓库。

从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的。

数据中心的重点就在于它迎合了专业用户群体的特殊需求,在分析、内容、表现,以及易用方面。

数据中心的用户希望数据是由他们熟悉的术语表现的。

数据仓库是一个集成的、面向主题的数据集合,设计的目的是支持DSS(决策支持系统)功能。

在数据仓库里,每个数据单元都和特定的时间相关。

数据仓库包括原子级别的数据和轻度汇总的数据,是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。

那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。

为了解决灵活性和性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。

数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。

数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

数据集市的特征∙数据集市的特征包括规模小∙有特定的应用∙面向部门∙由业务部门定义、设计和开发∙业务部门管理和维护∙能快速实现∙购买较便宜∙投资快速回收∙工具集的紧密集成∙提供更详细的、预先存在的、数据仓库的摘要子集∙可升级到完整的数据仓库数据集市中数据的结构数据集市中数据的结构通常被描述为星型结构或雪花结构。

一个星型结构包含两个基本部分——一个事实表和各种支持维表。

事实表事实表描述数据集市中最密集的数据。

在电话公司中,用于呼叫的数据是典型的最密集数据;在银行中,与账目核对和自动柜员机有关的数据是典型的最密集数据。

对于零售业而言,销售和库存数据是最密集的数据等等。

事实表是预先被连接到一起的多种类型数据的组合体,它包括:一个反映事实表建立目的的实体的主键,如一张订单、一次销售、一个电话等等,主键信息,连接事实表与维表的外键,外键携带的非键值外部数据。

如果这种非键外部数据经常用于事实表中的数据分析,它就会被包括在事实表的范围内。

事实表是高度索引化的。

事实表中出现30到40条索引非常常见。

有时实事表的每列都建了索引,这样作的结果是使事实表中的数据非常容易读取。

但是,导入索引所需的资源数量必须为等式提供因数。

通常,事实表的数据不能更改,但可以输入数据,一旦正确输入一个记录,就不能更改此记录的任何内容了。

维表维表是围绕着事实表建立的。

维表包含非密集型数据,它通过外键与事实表相连。

典型的维表建立在数据集市的基础上,包括产品目录、客户名单、厂商列表等等。

数据集市中的数据来源于企业数据仓库。

所有数据,除了一个例外,在导入到数据集市之前都应该经过企业数据仓库。

这个例外就是用于数据集市的特定数据,它不能用于数据仓库的其他地方。

外部数据通常属于这类范畴。

如果情况不是这样,数据就会用于决策支持系统的其他地方,那么这些数据就必须经过企业数据仓库。

数据集市包含两种类型的数据,通常是详细数据和汇总数据。

详细数据就像前面描述过的一样,数据集市中的详细数据包含在星型结构中。

值得一提的是,当数据通过企业数据仓库时,星型结构就会很好的汇总。

在这种情况下,企业数据仓库包含必需的基本数据,而数据集市则包含更高间隔尺寸的数据。

但是,在数据集市使用者的心目中,星型结构的数据和数据获取时一样详细。

汇总数据数据集市包含的第二种类型数据是汇总数据。

分析人员通常从星型结构中的数据创建各种汇总数据。

典型的汇总可能是销售区域的月销售总额。

因为汇总的基础不断发展变化,所以历史数据就在数据集市中。

但是这些历史数据优势在于它存储的概括水平。

星型结构中保存的历史数据非常少。

数据集市以企业数据仓库为基础进行更新。

对于数据集市来说大约每周更新一次非常平常。

但是,数据集市的更新时间可以少于一周也可以多于一周,这主要是由数据集市所属部门的需求来决定的。

数据集市的常见问题数据集市怎么建建立不同规格的数据仓库、数据集市的成本,国外的咨询机构有专门的评估,在一定程度上可以借鉴。

但是这些结果在国内也许并不适用,因为国情不同,在国内的构建成本需要专门的调研。

以我们为企业构建的客户主题数据集市为例,一般成本在20万元到50万元人民币之间。

数据集市的设计可以采用迭代式的方法。

在迭代式开发中,每个迭代为上一次的结果增加了新的功能。

功能增加的顺序要考虑到迭代平衡以及尽早发现重大风险。

通俗地说,就是在正式交货之前多次给客户交付不完善的中间产品“试用”。

这些中间产品会有一些功能还没有添加进去、还不稳定,但是客户提出修改意见以后,开发人员能够更好地理解客户的需求。

如此反复,使得产品在质量上能够逐渐逼近客户的要求。

这种开发方法周期长、成本高,但是它能够避免整个项目推倒重来的风险,比较适合大项目、高风险项目。

理论上讲,应该有一个总的数据仓库的概念,然后才有数据集市。

实际建设数据集市的时候,国内很少这么做。

国内一般会先从数据集市入手,就某一个特定的主题(比如企业的客户信息)先做数据集市,再建设数据仓库。

数据仓库和数据集市建立的先后次序之分,是和设计方法紧密相关的。

而数据仓库作为工程学科,并没有对错之分,主要判别方式应该是能否解决目前存在的实际问题,并为今后可能发生的问题保持一定的可伸缩性。

数据集市能不能“独立”企业规划数据仓库项目的时候,往往会遇到很多数据仓库软件供应商。

各供应商除了推销相关的软件工具外,同时也会向企业灌输许多概念。

其中,数据仓库和数据集市是最常见的两个术语了。

各个供应商术语定义不统一、销售策略不一样,这往往会给企业带来很大的混淆。

最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级的数据集市?这其实是是否要上独立型数据集市的问题。

数据集市可以分为两种类型——独立型数据集市和从属型数据集市。

独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。

数据仓库规模大、周期长,一些规模比较小的企业用户难以承担。

因此,作为快速解决企业当前存在的实际问题的一种有效方法,独立型数据集市成为一种既成事实。

独立型数据集市是为满足特定用户(一般是部门级别的)的需求而建立的一种分析型环境,它能够快速地解决某些具体的问题,而且投资规模也比数据仓库小很多。

独立型数据集市的存在会给人造成一种错觉,似乎可以先独立地构建数据集市,当数据集市达到一定的规模再直接转换为数据仓库。

有些销售人员会推销这种观点,其实质却常常是因为建立企业级数据仓库的销售周期太长以至于不好操作。

多个独立的数据集市的累积,是不能形成一个企业级的数据仓库的,这是由数据仓库和数据集市本身的特点决定的—数据集市为各个部门或工作组所用,各个集市之间存在不一致性是难免的。

因为脱离数据仓库的缘故,当多个独立型数据集市增长到一定规模之后,由于没有统一的数据仓库协调,企业只会又增加一些信息孤岛,仍然不能以整个企业的视图分析数据。

借用Inmon的比喻:我们不可能将大海里的小鱼堆在一起就构成一头大鲸鱼,这也说明了数据仓库和数据集市有本质的不同。

如果企业最终想建设一个全企业统一的数据仓库,想要以整个企业的视图分析数据,独立型数据集市恐怕不是合适的选择;也就是说“先独立地构建数据集市,当数据集市达到一定的规模再直接转换为数据仓库”是不合适的。

从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定,可以说是数据集市未来建设的主要方向。

为何要构建数据集市?快速发展的、充满竞争的商业世界对于及时、准确的信息有着永无止境的需求,一些IT专家对此认为其必然结果就是创建数据集市。

其他专家却质疑用户和客户所要付出的工作和成本。

毕竟,难道不能直接从遗留系统和在线事务处理(On Line Transaction Processing,OLTP)系统通过特定的报表获得相同的信息吗?在EDS的商业智能小组里,我们就经常被问到这一问题。

经验让我们有许多机会使我们的同行和客户了解这项有用技术的价值。

那么,一个组织为何要构建数据集市呢?虽然OLTP和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有意义的信息并且速度也较慢。

而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的、“智能的”或易于访问的信息的需求。

因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。

数据集市将合并不同系统的数据源来满足业务信息需求。

若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。

一个设计良好的数据集市将会:∙发布特定用户群体所需的信息,且无需受制于源系统的大量需求和操作性危机。

∙支持访问非易变(nonvolatile)的业务信息。

(非易变的信息是以预定的时间间隔进行更新的,并且不受OLTP系统进行中的更新的影响。

)∙调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。

∙通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(cleansed)数据。

∙为即席分析和预定义报表提供合理的查询响应时间(不同于OLTP系统中所需的调优需求)。

∙通过提供对于遗留系统和OLTP应用程序的选择来减少对这些应用程序的要求,以获得更多所需信息。

相关文档
最新文档