数据仓库和数据集市的区别

合集下载

大数据:数据仓库和数据集市的比较

大数据:数据仓库和数据集市的比较

大数据:数据仓库和数据集市的比较

随着科技的发展,数据成为了当下最热门的话题之一。随着互联网的普及和各行各业的信息化建设与发展,数据规模与数据类型也日益增加。面对如此巨大的数据量,如何正确地处理和分析数据,如何从中发现有价值的信息,也日益成为了各个企业必须面对的挑战。

在处理这些大数据时,数据仓库和数据集市是两种常见的数据存储和分析方式。本文将详细比较数据仓库和数据集市的优缺点。

一、数据仓库

数据仓库是指将企业内部不同系统中的数据进行收集和汇总,形成一个一致且具有高性能的数据存储库,并且保证数据的一致性、可更新性和可查询性。

数据仓库的主要特点:

1、定期批量更新数据:数据仓库通常会对企业内部的数据进行定期批量的更新,而且一般是在业务量相对较小时进行。

2、面向历史:数据仓库主要面向数据的历史信息,针对的是过去的数据。

3、专注于查询:在数据仓库中,主要对数据进行查询操作。

4、主题导向:数据仓库是围绕着业务主题进行组织的,它包含了企业整个业务的各个方面。

数据仓库的优点:

1、高效性:基于数据仓库的数据分析拥有更高的业务性能,用于大量数据处理时更加简单、高效。

2、数据一致性好:由于数据仓库的数据集中存储,因此能够保证数据的一致性。

3、适用于大型企业:数据仓库的搭建需要较高的成本,会考虑到企业经营的全局信息。

数据仓库的缺点:

1、对实时更新的需求差:数据仓库的数据一般是较为静态的,更新时延相对较高。

2、对数据的一致性要求高:数据仓库在数据插入、更新、删除等操作上的成本相对更高,因此数据的一致性也更加重视。

数据仓库与数据挖掘考试习题汇总 3

数据仓库与数据挖掘考试习题汇总 3

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

01

数据流向

02

应用示例

03

何为数仓DW

Data warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。

数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。目前行业比较流行的有:AWS Redshift,Greenplum,Hive等。

数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包含:清洗、转义、分类、重组、合并、拆分、统计等

主要特点

•面向主题

▪操作型数据库组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。

▪主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通过与多个操作型信息系统相关。

•集成

▪需要对源数据进行加工与融合,统一与综合

▪在加工的过程中必须消除源数据的不一致性,以保证数据仓库内的信息时关于整个企业的一致的全局信息。(关联关系)

•不可修改

▪DW中的数据并不是最新的,而是来源于其他数据源

▪数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询

•与时间相关

▪处于决策的需要数据仓库中的数据都需要标明时间属性

与数据库的对比

•DW:专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势

•数据库:用于捕获和存储数据

04

第一章第三节 数据仓库与数据集市

第一章第三节 数据仓库与数据集市
1)从整个公司的角度来计划和定义需求。 2)为完整的仓库创造一个体系结构。 3)使数据内容一致而且标准化。 4)将数据仓库作为一组超级数据集市来实施, 每次一个。 在这种方法中,数据集市是整个数据仓库系 统的逻辑子集,数据仓库是统一化了的数据集市。
第一章 数据仓库原理
1.3 数据仓库与数据集市 1.3.6 数据集市的建立
最细粒度 大量的历史数据 处理海量数据、数据 探索
部门或特殊的分析主 题 较粗的粒度
适度的历史数据 便于访问和分析、快 速查询
第一章 数据仓库原理
1.3 数据仓库与数据集市 1.3.3 数据集市与数据仓库的区别 关于数据集市,常常存在如下几个误区: 1)单纯用数据量的大小来区分数据集市 和数据仓库
满足所需。
第一章 数据仓库原理
1.3 数据仓库与数据集市 1.3.1 什么是数据集市
假设国际业务部门的客户有2万人。如果不构建数据集 市,他们会直接在数据仓库上查询相关的信息,比如外汇 宝客户去年一年外汇交易额在各种交易方式的分布。这种 查询的效率和性能是非常低的,如果各个部门的所有用户 都直接在数据仓库上查询相关的信息,数据仓库的性能会 下降,以至于无法满足大多数用户对性能的要求。因此, 构建部门级的数据集市是非常必要的。国际业务部门的数 据集市,集中了数据仓库中与本部门直接相关的业务数据, 例如2万个客户外汇交易的历史数据以及汇总。它采用星型 模型,可以方便OLAP工具的查询和分析。

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析

数据库、数据仓库、大数据平台、数据中台、数据湖对比分析

一、概况

层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:

•数据

▪什么是大数据

▪数据分析与数据挖掘的区别是什么

•数据库

▪什么是数据库

▪数据库中的分布式事务理论

•数据仓库

▪什么是数据仓库

▪什么是数据集市

▪数据库与数据仓库的区别是什么

•大数据平台

▪什么是大数据平台

▪什么是大数据开发平台

•数据中台

▪什么是数据中台

▪数据仓库与数据中台的区别与联系

•数据湖

▪什么是数据湖

▪数据仓库与数据湖有什么区别与联系

希望本文对你有所帮助,烦请读者诸君分享、点赞、转发。

二、数据

什么是大数据?

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增长的时代,业务需求增长促进技术迭代,技术满足需求后又形成闭环促进业务持续增长,从而形成一个闭环。

数据分析与数据挖掘的区别是什么?

数据分析可以分为广义的数据分析和狭义的数据分析。广义的数据分析就包括狭义的数据分析和数据挖掘。我们在工作中经常常说的数据分析指的是狭义的数据分析。

三、数据库据库什么是数据库?

数据库是按照数据结构来组织、存储和管理数据的仓库。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

数据产品经理必学基础:数据产品能力模型构建

数据产品经理必学基础:数据产品能力模型构建

数据产品经理必学基础:数据产品能

力模型构建

产品经理学习资料

数据产品经理必学基础:数据产品能力模型构建

本文尝试凭借笔者的理解构建一套

数据产品经理能力模型,作为自己未来学习的方向。

本文共分四个部分:

第一部分,从招聘市场需求入手,看市场上的招聘高级数据产品经理都需要掌握哪些硬实力;第二部分,结合一些数据产品经理的分享,梳理数据产品经理的朋友圈,因为沟通者一定程度决定了需要掌握多少“共通语言”;第三部分,构建数据产品经理能力模型;第四部分,详解一些数据产品常常接触的概念和系统。一、从招聘要求看能力要求笔者在拉勾网和猎聘网上搜索数据产品经理和高级数据产品经理,将岗位职责汇总整理,招聘方对于数据产品经理的需求如下所示:

1、熟练使用MySQL,SQL、Hive等语言;

2、熟悉数据生产加工流程;

3、对主流大数据产品、BI产品;

4、对数据仓库技术及理论有基本的了解,并对其发展趋势有深入了解;

5、了解数据分析,数据建模和数据挖掘技术及理论;

6、能很好地掌握产品思路、技术方案、商务策略等,驱动各角色解决问题,具有良好的商业洞察与判断,很强的逻辑思维能力、产品策划、品牌包装与宣传能力,对数据和业务敏感,有一定技术背景优

先考虑。

从上面的企业招聘需求可以看出,数据产品经理除了需要具备一些普通产品经理基础能力外,对数据分析,商业智能,数据挖掘等技能有着非常高的专业门槛。虽然数据产品经理也细分出应用方向,大数挖掘方向,数据分析方向,但为了更加有效的共同,还是有必要补全知识结构。数据产品经理多是数据分析师和数据开发通过内部转岗完成的,笔者属于电商产品转应用方向数据产品,在发挥业务理解优势的同时,需要快速补全数据分析相关知识,便于与对接同事高效协作。

数据仓库数据集市概念区别

数据仓库数据集市概念区别

数据集市≠数据仓库

NCR公司可扩展数据仓库解决方案小组王闯舟编译

我们知道,决策支持系统(DSS)主要有两种实现方式,即建立一个数据集市或者一个数据仓库.到底哪一种更能满足决策支持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的一个话题。

在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12月的一篇论文中提出,"数据仓库只不过是一些数据集市的集合而已"。认为企业多建立一些数据集市,将来自然就形成了数据仓库.而业界公认的数据仓库之父 Bill Inmon在今年1月立即撰文反驳,旗帜鲜明地指出,"你可以在大海中捕到很多的小鱼并堆积起来,但它们仍然不是鲸"。在5月份的《数据管理综述》(DataManagement Review)中,Bill Inmon又发表了”数据集市不等于数据仓库"的论文,进一步阐述两者在本质上的区别以及各自的适用场合,本文就是根据这篇论文的主要内容编译而成的。

问题的提出

现在,各企业IT部门的经理所面临的最主要问题之一是先建立数据仓库还是先建立数据集市。长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建立数据仓库比较复杂,投资过大,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资方案难以得到企业管理层的批准。数据集市供应商们给业界描绘了一幅数据仓库前景暗淡的图画,这完全是出于自身的目的,是不

正确的。

数据集市供应商们把数据仓库当成其增加营业收入的绊脚石,自然要避开和攻击数据仓库。事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。

数据仓库与数据挖掘考试习题汇总3

数据仓库与数据挖掘考试习题汇总3

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP 是基于关系数据库的OLAP 实现,而MOLAP 是基于多维数据结构组织的OLAP 实现。实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

1010、从应用的角度看,数据仓库的发展演变可以归纳为、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

dw知识点总结

dw知识点总结

dw知识点总结

DW概念

Data Warehousing是指从多个数据源中提取、转换和加载数据,并将其存储在一个集中的数据库或存储器中的过程。DW主要用于支持企业决策制定,通过提供一致的、集成的和

易于访问的数据来支持数据分析和报告。主要特点包括:

·集成:将来自不同数据源的数据合并,以便进行分析。

·非易失性:存储的数据通常是只读的,不会被修改或删除。

·主题导向:将数据以主题为中心进行组织,而不是按照应用程序或功能。

·时间性:数据存储会追踪时间变化,使用户能够进行历史数据分析。

DW架构

DW架构包括数据提取、清洗、转换和加载(ETL),存储和元数据管理等组件。常见的DW架构包括:企业数据仓库(EDW)、数据集市和操作数据存储(ODS)。EDW是一

个主要的DW系统,用于整合企业级数据,并支持高级分析和报告。数据集市是一个专门

的DW系统,提供特定主题的数据。ODS是一个用于操作和实时决策支持的数据存储。这些组件共同构成了一个完整的DW系统。

数据模型

数据模型是DW的核心,它描述了数据在DW系统中的组织方式。常见的数据模型包括:

·星型模式:使用一个中心的事实表,连接到多个维度表。

·雪花模式:在星型模式的基础上,维度表进一步规范化,形成多层结构。

·灵活的模式:使用多个事实表和维度表,构建更复杂的关联结构。

ETL过程

ETL过程包括三个主要步骤:数据提取、数据转换和数据加载。数据提取是从不同数据源

中获取数据,数据清洗和转换是对数据进行清理、处理和规范化,数据加载是将处理过的

数据加载到DW系统中。ETL工具是用于支持ETL过程的软件,如Informatica、SSIS和DataStage等。

数据仓库设计与建模的数据仓库与数据集市比较(七)

数据仓库设计与建模的数据仓库与数据集市比较(七)

数据仓库设计与建模的数据仓库与数据集市比较

数据仓库(Data Warehouse)和数据集市(Data Mart)都是企业信息系统中重要的数据存储和管理形式。虽然它们都用于支持决策制定和业务分析,但在设计与建模方面存在一些差异。本文将比较数据仓库和数据集市的概念、架构、数据模型等方面的异同。

一、概念差异

数据仓库是一个集中存储、积累历史和当前的大规模数据的库,用于支持企业的决策分析。它整合了来自各个业务系统的数据,经过数据清洗、转换和加载等处理后,提供给决策者和分析师进行查询、统计和分析。数据仓库是以主题为中心的,与业务过程解耦的。

数据集市是数据仓库的子集,它是针对特定业务领域或团队的数据仓库。数据集市以更小的规模和更狭窄的业务需求为特点,例如销售数据集市、采购数据集市等。数据集市通常由数据仓库中的特定数据子集构成,并通过数据仓库的主题视图或数据联接进行引用。

二、架构差异

数据仓库的架构通常采用三层结构,包括数据提取(Extraction)、转换(Transformation)和加载(Loading)层,数据存储(Storage)层和数据查询(Query)层。数据提取层负责从各个业务系统中提取数据,数据转换层进行数据清洗、整合和转换,数据加载层将经过处理的数据加载到数据存储层。数据存储层用于存储集成的数据,并支持高效的数据查询和分析。

数据集市的架构相对简单,通常只包含数据存储和数据查询两层。数据存储层用于存储特定业务领域的数据,数据查询层用于支持查询

和报表等操作。数据集市可以选择与数据仓库共享存储层,或者独立

数据仓库中ODS、DW与DM之间关系

数据仓库中ODS、DW与DM之间关系

数据仓库中ODS、DW与DM之间关系

在数据仓库架构中ODS(操作数据存储)、DW(数据仓库)和DM(数据集市)是不同的层次。它们之间有明显的区别,并且相互协作来支持数据管理和分析,具体详见下图:

接下来分别对ODS、DW和DM进行详细介绍。

ODS介绍

ODS是操作性数据(Operational Data Store) 简称:操作性

数据存储。ODS是数据仓库中的一个中间层,它主要用于将源系统的数据进行整合和转换,但并不进行复杂的分析或聚合。ODS 旨在保留源系统数据的完整性,支持实时或接近实时的数据访问和操作。它通常包含原始数据和经过简单处理的数据。

特征如下:

●ODS直接存放从业务抽取过来的数据,这些数据从结构和

数据上与业务系统保持一致,降低了数据抽取的复杂

性。

●转移一部分业务系统的细节查询功能,因为ODS存放的

数据与业务系统相同,原来有业务系统产生的报表,现

在可以从ODS中产生。

●完成数据仓库中不能完成的功能,ODS存放的是明细数

据,数据仓库DW或数据集市DM都存放的是汇聚数据,

ODS提供查询明细的功能。

●ODS数据只能增加不能修改,而且数据都是业务系统原样

拷贝,所以可能存在数据冲突的可能,解决办法是为每

一条数据增加一个时间版本来区分相同的数据。

DW介绍

DW是数据仓库(Data Warehouse)的简称:DW是一个经过专门处理和优化的数据存储区域,用于支持复杂的分析、查询和报告。DW采用了不同的数据模型(如星型模型或雪花模型)和聚合

技术,以提供快速的决策支持和报表功能。DW具有历史数据存储、集成和标准化数据等特点,可以满足企业级的数据分析需求。

第十七课--数据仓库和数据集市

第十七课--数据仓库和数据集市
设计分析
Product_Dim具有一个分层结构:产品类别,并且采用的是合 并维分层结构。 Northwind数据库Categories的CategoriesID与Products的Cate goriesID是一对多的关系,因此可以通过连接将Categories 的CategoriesName合并到Product_Dim中。 Northwind数据库Suppliers的SupplierID与Products的Supplier ID是一对多的关系,因此可以通过连接将Suppliers的Comp anyName合并到Product_Dim的供应商中。
30
任务一:设计Northwind数据库的星型模型
设计实施
建立Employee_Dim维表。 员工序号,是一个由标识生成的代理键。 员工姓名:由DTS的ActiveX Script将Northwind数据库中 的Employees这个表的lastname与firstname合并而成。 年龄及年薪由Employees这个表的BirthDate、HireDate产 生。 年龄层及年薪层是基于分析便利而产生的统计组,当数 据由OLTP转换到OLAP时,由DTS的ActiveX Script来负 责做建立分组的动作。 其他字段都是由Employees这个表来产生。
31
任务一:设计Northwind数据库的星型模型
设计实施
建立ShipperDim这个维表 发货人序号,是一个由标识生成的代理键。 其他字段都是由Shippers这个表来产生。

数据仓库与数据集市

数据仓库与数据集市
据库 ; 次 , 其 数据仓库是对多个异构数据源 的有效集成 , 集成后按照主题 进行 了重组 , 并包 含历 史数据 , 而且存放 在数据仓库 中的数据一般 不再
2 O世 纪 8 O年代 中期 , 数据仓 库之父 ” la . m n先生 认为 : “ Wiim HI o l n 数据 仓库( aa rhue 是在企业 管理 和决策 中面向主题 的( u i t D t e os ) Wa S be c
库 和 数 据 集 市 的 概 念 入 手 , 绍 了数 据 仓 库 和数 据 集 市 的 特 点 、 系结 构 、 件 、 价 介 体 构 评
指 标 及其 应 用 。
关键 词 : 据仓 库 ; 数 数据 集 市 ; 分析 方 法 中 图分 类 号 :P l,3 T31 1 文 献标 识 码 : A
() 4 反映历史变化。操作型数据库主要关心当前某一个 时间段 内的 数据, 而数据仓库 中的数 据通 常包 含历史信息 , 系统记录了企业从过去 某一 时点 到 目前的各个阶段 的信 息 , 过这些信息 , 以对企 业的发展 通 可 历程和未来趋势 作出定量分析和预测 。
企业数据仓库 的建 设是以现有企业业务 系统 和业务数据 的积累为 基础。数据仓库 不是静 态的概念 , 只有把 信息及 时交给需要这些信息 的
织。Βιβλιοθήκη Baidu
据仓库更像一种过 程 。 是对分布在企业 内部各处 业务数据 的整合 、 加工

数据仓库数据集市BI数据分析介绍

数据仓库数据集市BI数据分析介绍

数据仓库数据集市BI数据分析介绍

数据仓库、数据集市和BI是现代企业管理和决策过程中的重要组成

部分。在信息技术快速发展的今天,企业面临大量的数据和信息处理需求,数据仓库、数据集市和BI能够帮助企业将数据转化为有用的信息,为决

策提供支持。

数据仓库是指将企业内部和外部的各种数据进行整合、集成和存储的

一个中央数据库。它将来自于各个业务系统、数据库和数据源的数据进行

提取、转换和加载,形成一个统一的、标准化的数据存储。数据仓库不仅

可以提供数据的存储,还可以提供数据的联机分析处理、查询和报表等功能。通过数据仓库,企业可以将分散的、冗余的数据转化为一个完整的、

一致的数据视图,为企业管理和决策提供数据支持。

数据集市是数据仓库的一个子集,是面向特定用户群体的数据仓库。

数据集市按照特定的业务需求和用户需求,将数据仓库的数据进行划分和

整理,形成一个更加专业化和精简的数据视图。数据集市通常包含与特定

业务或部门相关的数据,例如销售数据集市、财务数据集市和客户数据集

市等。数据集市可以为特定用户群体提供更加专业化的数据分析和决策支持。

BI(Business Intelligence)是指通过数据分析和挖掘技术,提供

给企业管理层和决策者用于决策支持的信息和报告。BI能够将数据仓库

和数据集市中的数据进行分析和挖掘,提取出有用的信息和洞察,为企业

管理和决策提供支持。通过BI,企业可以从数据中发现潜在的商机、市

场趋势和业务问题,并及时采取相应的措施。

在数据仓库、数据集市和BI的应用中,数据分析是一个关键的环节。数据分析主要包括数据清洗、数据挖掘和数据可视化三个步骤。数据清洗

数据仓库和数据集市

数据仓库和数据集市

数据仓库和数据集市

上海复旦德门软件有限公司 朱建秋 博士

企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。由于术语定义不统一,另外各个供应商销售策略不一样,往往会给企业带来很大的混淆。最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级的数据集市?本文试图说明这两个概念之间的区别和联系,以期对具体的数据仓库项目有所裨益。

1.为什么会出现数据仓库和数据集市?

“数据仓库”的概念可以追溯到80年代中期。从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。

在缺乏“数据仓库”体系结构的情况下,早期的决策支持环境如图1所示。企业内部存在许多冗余的、重复建设的决策支持系统(通常是报表系统),这些系统被不同类型的用户使用,数据的抽取层次复杂,最初在OLTP 上抽取,再在抽取后的数据集上抽取,如此等等,呈“蜘蛛网”状,由于没有公共的数据源,并且数据没有时间点,导致了产生的报表可信度下降,数据不一致问题特别显著,更不用说转化为有效的决策信息。

为了解决上述问题,数据仓库应运而生。数据仓库构建了一种以集中式的数据存储为核心的体系结构,数据存储的模式为了适应决策分析的要求,从而形成一种与原来业务系统

OLTP

数据源 复制的数据集 最终用户开发的报表环境

图1:早期的决策支持系统

图2:数据仓库体系结构

成的操作型环境(OLTP )相独立的决策支持环境。数据仓库最基本的体系结构如图2所示。

商务智能复习题

商务智能复习题

一、选择题(本题共5道小题,每小题2分,共10分)

1. 数据仓库是随着时间变化的,下面的描述不正确的是( C )。

A. 数据仓库随时间的变化不断增加新的数据内容

B. 捕捉到的新数据会覆盖原来的快照

C. 数据仓库随事件变化不断删去旧的数据内容

D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合

2. 有关数据仓库的开发特点,不正确的描述是( B )。

A. 数据仓库使用的需求在开发初期就要明确

B. 数据仓库开发要从数据出发

C. 数据仓库的开发是一个不断循环的过程,是启发式的开发

D. 在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式

3. 在有关数据仓库测试,下列说法不正确的是( D )。

A. 在完成数据仓库的实施过程中,需要对数据仓库进行各种测试。测试工作中要包括单元测试和系统测试。

B. 当数据仓库的每个单独组件完成后,就需要对他们进行单元测试。

C. 系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试。

D. 在测试之前没必要制定详细的测试计划。

4. 关于基本数据的元数据是指( D )。

A. 基本元数据与数据源、数据仓库、数据集市和应用程序等结构相关的信息

B. 基本元数据包括与企业相关的管理方面的数据和信息

C. 基本元数据包括日志文件和简历执行处理的时序调度信息

D. 基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息

6. 下面关于数据粒度的描述不正确的是( C )。

A. 粒度是指数据仓库小数据单元的详细程度和级别

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库和数据集市的区别

数据仓库与数据集市

看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:

(1) 基本概念

(2) 为什么提出数据集市

(3) 数据仓库设计方法论

(4) 数据集市和数据仓库的区别

(5) 仓库建模与集市建模

(6) 案例分析:电信CRM数据仓库

Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是十分重要而迫切的!通常在考虑建立数据仓库之前,会涉及到如下一些问题:

(1) 采取自上而下还是自下而上的设计方法

(2) 企业范围还是部门范围

(3) 先建立数据仓库还是数据集市

(4) 建立领航系统还是直接实施

(5) 数据集市是否相互独立

一、基本概念

数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准RDBMS 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又称为数据集市。原子仓库存在的主要目的是作为数据集市的工作基础,同时也作为参照性数据仓库。原子仓库的大小、集中存放和数据库设计可能无法满足特殊类型用户的各种需求。其子集,即各个数据集市被拷贝到其它计算机上,可作为它们自己的数据仓库。数据集市可以和产生它们的原子数据仓库一样大,甚至更大。它们可以位于原子数据仓库的附近,或分布到更靠近用户的位置,放置在何处取决于使用和通讯成本。数据集市是用来满足特殊用户的应用需求的数据仓库,它们的规模可能达到数百G B。使其成为数据集市的关键是它的使用目标、范围,而非规模大小。

数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。有两种类型的数据集市(如下图):

独立型(直接从操作型环境中获取数据):这些数据集市是由特定的工作组、部门或业务线进行控制的,完全是为满足其需求而构建的。实际上,它们甚至与其他工作组、部门或

业务线中的数据集市没有任何连通性

从属型(从企业级数据仓库中获取数据):这样的数据集市往往以分布式的方式实现。虽然不同的数据集市是在特定的工作组、部门或生产线中实现的,但它们可以是集成、互连的,以提供更加全局的业务范围的数据视图。实际上,在最高的集成层次上,它们可以成为业务范围的数据仓库。这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的数据

二、为什么提出数据集市

虽然OL T P和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的、智能的或易于访问的信息的需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。

数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下特点(有些特点数据仓库也具有,有些特点是相对于数据仓库来讲的):

(1) 特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且无需受制于源系统的大量需求和操作性危机(想对于数据仓库)。

(2) 支持访问非易变(non v olatile)的业务信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受OL T P系统进行中的更新的影响。)

(3) 调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。

(4) 通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(c leansed)数据。

(5) 为即席分析和预定义报表提供合理的查询响应时间(由于数据集市是部门级的,相对于庞大的数据仓库来讲,其查询和分析的响应时间会大大缩短)。

三、数据仓库设计方法论

在数据仓库建立之前,会考虑其实现方法,通常有自顶向下、自底向上和两者综合进行的这样三种实现方案,下面分别对其做简要阐述:

(1)自顶向下的实现

自顶向下的方法就是在单个项目阶段中实现数据仓库。自顶向下的实现需要在项目开始时完成更多计划和设计工作。这就需要涉及参与数据仓库实现的每个工作组、部门或业务线中的人员。要使用的数据源、安全性、数据结构、数据质量、数据标准和整个数据模型的有关决策一般需要在真正的实现开始之前就完成。

(2)自底向上的实现

自底向上的实现包含数据仓库的计划和设计,无需等待安置好更大业务范围的数据仓库设计。这并不意味着不会开发更大业务范围的数据仓库设计;随着初始数据仓库实现的扩展,将逐渐增加对它的构建。现在,该方法得到了比自顶向下方法更广泛的接受,因为数据仓库的直接结果可以实现,并可以用作扩展更大业务范围实现的证明。

(3)一种折中方案

每种实现方法都有利弊。在许多情况下,最好的方法可能是某两种的组合。该方法的关键之一就是确定业务范围的架构需要用于支持集成的计划和设计的程度,因为数据仓库是用自底向上的方法进行构建。在使用自底向上或阶段性数据仓库项目模型来构建业务范围架

相关文档
最新文档