数据仓库数据集市概念区别

合集下载

数据仓库和数据集市的区别

数据仓库和数据集市的区别数据仓库与数据集市看了很多数据仓库方面的资料，都涉及到了“数据集市”这一说法，刚开始对数据仓库和数据集市的区别也理解得比较肤浅，现在做个深入的归纳和总结，主要从如下几个方面进行阐述：（1）基本概念（2）为什么提出数据集市（3）数据仓库设计方法论（4）数据集市和数据仓库的区别（5）仓库建模与集市建模（6）案例分析：电信CRM数据仓库Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”，足以说明搞清楚这两者之间的关系是十分重要而迫切的！通常在考虑建立数据仓库之前，会涉及到如下一些问题：（1）采取自上而下还是自下而上的设计方法（2）企业范围还是部门范围（3）先建立数据仓库还是数据集市（4）建立领航系统还是直接实施（5）数据集市是否相互独立一、基本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

为最大限度地实现灵活性，集成的数据仓库的数据应该存储在标准RDBMS 中，并经过规范的数据库设计，以及为了提高性能而增加一些小结性信息和不规范设计。

这种类型的数据仓库设计被称为原子数据仓库。

原子数据仓库的子集,又称为数据集市。

大数据：数据仓库和数据集市的比较

大数据：数据仓库和数据集市的比较随着科技的发展，数据成为了当下最热门的话题之一。

随着互联网的普及和各行各业的信息化建设与发展，数据规模与数据类型也日益增加。

面对如此巨大的数据量，如何正确地处理和分析数据，如何从中发现有价值的信息，也日益成为了各个企业必须面对的挑战。

在处理这些大数据时，数据仓库和数据集市是两种常见的数据存储和分析方式。

本文将详细比较数据仓库和数据集市的优缺点。

一、数据仓库数据仓库是指将企业内部不同系统中的数据进行收集和汇总，形成一个一致且具有高性能的数据存储库，并且保证数据的一致性、可更新性和可查询性。

数据仓库的主要特点：1、定期批量更新数据：数据仓库通常会对企业内部的数据进行定期批量的更新，而且一般是在业务量相对较小时进行。

2、面向历史：数据仓库主要面向数据的历史信息，针对的是过去的数据。

3、专注于查询：在数据仓库中，主要对数据进行查询操作。

4、主题导向：数据仓库是围绕着业务主题进行组织的，它包含了企业整个业务的各个方面。

数据仓库的优点：1、高效性：基于数据仓库的数据分析拥有更高的业务性能，用于大量数据处理时更加简单、高效。

2、数据一致性好：由于数据仓库的数据集中存储，因此能够保证数据的一致性。

3、适用于大型企业：数据仓库的搭建需要较高的成本，会考虑到企业经营的全局信息。

数据仓库的缺点：1、对实时更新的需求差：数据仓库的数据一般是较为静态的，更新时延相对较高。

2、对数据的一致性要求高：数据仓库在数据插入、更新、删除等操作上的成本相对更高，因此数据的一致性也更加重视。

3、可变性不强：数据仓库在建库时便需要考虑到全局信息，所以数据的构建相对比较稳定。

二、数据集市数据集市是指将企业内部不同系统中的数据进行收集，然后根据需要进行分类、整合、清洗、分析等操作，组成具有相同语义的业务数据集合，提供给业务部门，以支持各个业务部门的分析需求和决策需要。

数据集市的主要特点：1、实时更新：数据集市需要及时更新数据，这样业务部门才能随时获取到最新的数据信息。

数据仓库与数据集市的区别与选择

数据仓库与数据集市的区别与选择随着信息技术的发展和数据量的快速增长，企业对数据的需求也越来越高。

为了更好地利用和管理企业的数据资产，数据仓库和数据集市成为了常用的解决方案。

本文将探讨数据仓库与数据集市的区别，并给出在不同场景下的选择建议。

一、数据仓库的定义与特点数据仓库是指将企业各个业务系统产生的数据进行整合、清洗和转换，形成一个统一、集中、一致的数据存储空间。

数据仓库通常采取面向主题的建模方式，将业务数据按照主题进行组织，例如按照销售、客户、产品等主题进行存储。

数据仓库的特点包括：1. 面向主题：数据仓库关注企业的关键主题，将数据按照主题进行组织。

2. 集成的：数据仓库整合来自不同业务系统的数据，形成一张全面的数据模型。

3. 非易失的：数据仓库中的数据一般是只读的，不可修改，保证了数据的一致性和稳定性。

4. 历史的：数据仓库中保存了历史数据，可以进行时间序列分析和趋势预测。

二、数据集市的定义与特点数据集市是面向具体业务需求的数据存储和处理环境，它是数据仓库的一种延伸和扩展。

不同于数据仓库的集中式架构，数据集市通常采用分散式的架构，根据业务需求构建多个独立的数据集市。

数据集市的特点包括：1. 面向业务需求：数据集市根据不同的业务需求构建，可以为不同的部门和角色提供定制化的数据视图。

2. 高度灵活：数据集市采用分散式架构，每个集市可以独立定义数据模型和数据存储方式，实现灵活性和快速响应业务变化的能力。

3. 实时性需求：某些业务场景下，对于数据的实时性要求较高，数据集市可以针对这些需求提供实时数据。

4. 可扩展性：数据集市可以根据业务扩展的需要，灵活添加或删除数据集市，以适应业务的发展和变化。

三、数据仓库与数据集市的区别1. 架构设计：数据仓库采用集中式的架构，将各个业务系统的数据整合到一个统一的存储空间中；而数据集市采用分散式的架构，根据业务需求构建多个独立的数据集市。

2. 数据模型：数据仓库通常采用面向主题的数据建模方式，按照主题进行数据整合和存储；而数据集市根据具体的业务需求，可以采用不同的数据模型，如关系型模型、多维模型等。

数据仓库-数据集市-BI-数据分析-介绍

数据仓库-数据集市-BI-数据分析-介绍数据仓库数据集市BI数据分析介绍在当今数字化的时代，数据已经成为企业和组织最宝贵的资产之一。

如何有效地管理、分析和利用这些数据，以获取有价值的信息和洞察，成为了摆在众多企业面前的重要课题。

在这个过程中，数据仓库、数据集市、商业智能（BI）和数据分析等技术和概念发挥着至关重要的作用。

接下来，让我们一起深入了解一下这些概念。

数据仓库，简单来说，就是一个用于存储和管理企业数据的大型数据库系统。

它的目的是将来自不同数据源（如操作系统、数据库、文件等）的数据整合到一个统一的、一致的环境中，以便进行分析和决策支持。

数据仓库中的数据通常是经过清洗、转换和集成的，以确保数据的质量和一致性。

它采用了特定的架构和技术，如星型模式、雪花模式等，来优化数据的存储和查询性能。

数据仓库就像是一个大型的数据仓库，将各种各样的数据收集起来，经过整理和分类，以便后续的使用。

与数据仓库密切相关的是数据集市。

数据集市可以看作是数据仓库的一个子集，它专注于特定的业务领域或主题，例如销售数据集市、客户数据集市等。

数据集市的数据来源于数据仓库，经过进一步的筛选和加工，以满足特定业务部门或用户的需求。

数据集市的规模通常比数据仓库小，但更具针对性和灵活性，能够更快地提供相关的数据和分析结果。

接下来，我们谈谈商业智能（BI）。

BI 是一套用于将数据转化为有价值的信息和知识的技术和工具。

它包括数据报表、数据可视化、数据挖掘、联机分析处理（OLAP）等功能。

通过 BI 系统，用户可以以直观的方式查看和分析数据，从而发现数据中的趋势、模式和关系。

BI 帮助企业管理层做出更明智的决策，提高企业的竞争力和运营效率。

例如，通过数据报表，管理层可以清晰地了解企业的销售业绩、成本支出等情况；通过数据可视化，复杂的数据可以以图表、地图等形式展现，更容易理解和分析。

数据分析则是一个更广泛的概念，它涵盖了从数据收集、数据处理、数据分析到结果解释和报告的整个过程。

数据仓库和数据集市的概念、区别与联系

数据仓库和数据集市的概念、区别与联系1．为什么会出现数据仓库和数据集市？“数据仓库”的概念可以追溯到80 年代中期。

从本质上讲，最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型，并尝试解决和这些数据流相关的各种问题。

在缺乏“数据仓库”体系结构的情况下，早期的决策支持环境如图1 所示。

企业内部存在许多冗余的、重复建设的决策支持系统（通常是报表系统），这些系统被不同类型的用户使用，数据的抽取层次复杂，最初在OLTP 上抽取，再在抽取后的数据集上抽取，如此等等，呈“蜘蛛网”状，由于没有公共的数据源，并且数据没有时间点，导致了产生的报表可信度下降，数据不一致问题特别显著，更不用说转化为有效的决策信息。

为了解决上述问题，数据仓库应运而生。

数据仓库构建了一种以集中式的数据存储为核心的体系结构，数据存储的模式为了适应决策分析的要求，形成了一种与原来业务系统构成的操作型环境（OLTP）相独立的决策支持环境。

数据仓库最基本的体系结构如图2 所示。

图2 所示的以数据仓库为基础的决策支持环境，要求数据仓库能够满足所有最终用户的需求。

然而，最终用户的需求是不断变化的，而且各种类型的用户对信息的需求也不一样，这就要求数据仓库存储的数据具有充分的灵活性，能够适应各类用户的查询和分析。

另一方面，最终用户对信息的需求必须易于访问，能够在较高的性能上获得结果。

但是，灵活性和性能对数据仓库而言，是一对矛盾体。

为了适应灵活性的要求，数据仓库需要存储各种历史数据，以规范化的模式存储（一般是第3范式）。

于是，对于特定的用户，TA所需要的信息就需要在许多张很大的表上连接后得到结果，这样就无法满足用户对快速访问的性能需求。

为了解决灵活性和性能之间的矛盾，数据仓库体系结构中增加了数据集市，数据集市存储为特定用户需求而预先计算好的数据，从而满足用户对性能的需求。

带有数据集市的体系结构如图3 所示。

上文提及数据仓库除了为数据流构建体系结构模型外，还尝试解决与数据流相关的各种问题，这些问题如图4 所示，包括数据仓库构建过程中需要开展的各种任务及特点。

数据仓库数据集市概念区别

数据仓库数据集市概念区别数据集市≠数据仓库NCR公司可扩展数据仓库解决⽅案⼩组王闯⾈编译我们知道,决策⽀持系统(DSS)主要有两种实现⽅式,即建⽴⼀个数据集市或者⼀个数据仓库。

到底哪⼀种更能满⾜决策⽀持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的⼀个话题。

在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12⽉的⼀篇论⽂中提出,"数据仓库只不过是⼀些数据集市的集合⽽已"。

认为企业多建⽴⼀些数据集市,将来⾃然就形成了数据仓库。

⽽业界公认的数据仓库之⽗ Bill Inmon在今年1⽉⽴即撰⽂反驳,旗帜鲜明地指出,"你可以在⼤海中捕到很多的⼩鱼并堆积起来,但它们仍然不是鲸"。

在5⽉份的《数据管理综述》(DataManage ment Review)中,Bill Inmon⼜发表了"数据集市不等于数据仓库"的论⽂,进⼀步阐述两者在本质上的区别以及各⾃的适⽤场合,本⽂就是根据这篇论⽂的主要内容编译⽽成的。

问题的提出现在,各企业IT部门的经理所⾯临的最主要问题之⼀是先建⽴数据仓库还是先建⽴数据集市。

长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建⽴数据仓库⽐较复杂,投资过⼤,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资⽅案难以得到企业管理层的批准。

数据集市供应商们给业界描绘了⼀幅数据仓库前景暗淡的图画,这完全是出于⾃⾝的⽬的,是不正确的。

数据集市供应商们把数据仓库当成其增加营业收⼊的绊脚⽯,⾃然要避开和攻击数据仓库。

事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。

持数据集市主张的⼈认为,决策⽀持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。

⽅法之⼀就是建⽴多个数据集市,当它们增加得⾜够⼤时,那就是所谓的数据仓库了。

产品经理-10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系（一）作为一名数据小白，在日常讲授和杂务工作中经常会接触到数据。

随着用户数据与金融业务数据的不断累加，数据管理与处理愈发重要。

本篇文章中，无名氏将一文说明数据库、数据仓库、数据湖、数据中台的区别与联系。

作为数据相关的产品小白，在日常学习工作中经常能或者听到大家在讨论数据库，数据仓库，数据集市，数据库数据湖还有最近比较火的数据中台，似乎这些名词都与数据存在着联系，查阅各类相关书籍，大部分书籍中的内容过于专业晦涩难懂。

那么这结合我积累的相关方面知识，向大家介绍一下上述这些名词的与联系，以及在各类企业及业务范围上的适用范围，如有不准确的地方，希望大家进行指正。

相信大部分有些许技术背景的都对数据库有一定的了解，数据库是“按照数据结构来组织、存储和管理数据的仓库”，一般分为“关系型数据库”与“非关系型数据库”。

1.关系型数据库实际上回顾过去的数据库一共有三种模型，即层次模型，网状模型，关系模型。

（1）首先层次模型的数据结构为树状结构，即是一种上下级的社团组织层级关系组织数据的一种方式：（2）带状模型的数据结构为网状网状结构，即将每个数据节点与其他很多节点都连接起来：（3）关系模型的数据结构可以看做是一个二维表格，任何数据都可以通过行号与列号来唯一确定：由于相比于层次模型和网状模型，关系模型理解和使用最简单，最终基于关系型最后数据库在各行各业应用了起来。

关系模型的数学方法第一卷涉及到关系，元组，属性，笛卡尔积，域等等令人头秃的高等数学术语，这里大家如果感兴趣可以看看相关的文献，我就不放出来催眠大家了，尽管数学原理比较复杂，但如果用事务平时学习工作的具体事务举例，就相对容易理解。

我们以某公司的员工信息表为例，该公司的员工信息可以用一个表格存起来。

并且定义如下：同时部门ID对应这另一个职能部门表：我们可以通过给定一个政府部门部门名称，查到一条部门的记录，根据部门ID，又可以记述查到该部门下的员工记录，这样三维的表格就通过ID映射建立了“一对多”的关系。

数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别

数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别数据仓库vs.数据集市数据集市和数据仓库经常会被混淆，但两者的用途明显不同。

数据集市通常是数据仓库的子集;它等数据通常来自数据仓库– 尽管还可以来自其他来源。

数据集市的数据专门针对特定的用户社区(例如销售团队)，以便他们能够快速找到所需的数据。

通常，数据保存在那里用于特定用途，例如财务分析。

数据集市也比数据仓库小得多– 它们可以容纳数十千兆字节，相比之下，数据仓库可以存储数百千兆字节到PB级数据，并可用于数据处理。

数据集市可从现有数据仓库或其他数据源系统构建，你只需设计和构建数据库表，使用相关数据填充数据库表并决定谁可以访问数据集即可。

数据仓库vs.ODS操作数据存储(ODS)是一种数据库，用作所有原始数据的临时存储区域，这些数据即将进入数据仓库进行数据处理。

我们可以将其想象成仓库装卸码头，货物在此处交付、检查和验证。

在ODS中，数据在进入仓库前可以被清理、检查(因为冗余目的)，也可检查是否符合业务规则。

在ODS中，我们可以对数据进行查询，但是数据是临时的，因此它仅提供简单信息查询，例如正在进行的客户订单状态。

ODS通常运行在关系数据库管理系统(RDBMS)或Hadoop平台。

关系型数据库vs.数据仓库和数据湖数据仓库、数据湖与关系数据库系统之间的主要区别在于：关系数据库用于存储和整理来自单个来源(例如事务系统)的结构化数据，而数据仓库则用于存储来自多个来源的结构化数据。

数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。

关系数据库创建起来相对简单，可用于存储和整理实时数据，例如交易数据等。

关系数据库的缺点是它们不支持非结构化数据库数据或现在不断生成的大量数据。

这使得我们只能在数据仓库与数据湖间做出选择。

尽管如此，很多企业仍然继续依赖关系数据库来完成运营数据分析或趋势分析等任务。

内部或云端可用的关系数据库包括Microsoft SQL Server、Oracle数据库、MySQL和IBM Db2、以及Amazon Relational Database Service、Google Cloud Spanner等。

数据仓库中ODS、DW与DM之间关系

数据仓库中ODS、DW与DM之间关系在数据仓库架构中ODS（操作数据存储）、DW（数据仓库）和DM（数据集市）是不同的层次。

它们之间有明显的区别，并且相互协作来支持数据管理和分析，具体详见下图：接下来分别对ODS、DW和DM进行详细介绍。

ODS介绍ODS是操作性数据(Operational Data Store) 简称：操作性数据存储。

ODS是数据仓库中的一个中间层，它主要用于将源系统的数据进行整合和转换，但并不进行复杂的分析或聚合。

ODS 旨在保留源系统数据的完整性，支持实时或接近实时的数据访问和操作。

它通常包含原始数据和经过简单处理的数据。

特征如下：●ODS直接存放从业务抽取过来的数据，这些数据从结构和数据上与业务系统保持一致，降低了数据抽取的复杂性。

●转移一部分业务系统的细节查询功能，因为ODS存放的数据与业务系统相同，原来有业务系统产生的报表，现在可以从ODS中产生。

●完成数据仓库中不能完成的功能，ODS存放的是明细数据，数据仓库DW或数据集市DM都存放的是汇聚数据，ODS提供查询明细的功能。

●ODS数据只能增加不能修改，而且数据都是业务系统原样拷贝，所以可能存在数据冲突的可能，解决办法是为每一条数据增加一个时间版本来区分相同的数据。

DW介绍DW是数据仓库(Data Warehouse)的简称：DW是一个经过专门处理和优化的数据存储区域，用于支持复杂的分析、查询和报告。

DW采用了不同的数据模型（如星型模型或雪花模型）和聚合技术，以提供快速的决策支持和报表功能。

DW具有历史数据存储、集成和标准化数据等特点，可以满足企业级的数据分析需求。

特征如下：●效率足够高，要对进入的数据快速处理。

●数据质量高，数据仓库是提供很多决策需要的数据支撑，DW的数据应该是唯一的具有权威性的数据，企业的所有系统只能从DW取数据，所以需要定期对DW里面的数据进行质量审，保证DW里边数据的唯一、权威、准确性。

●扩展性，企业业务扩展和降低企业建设数据仓库的成本考虑●面向主题，数据仓库中的数据是按照一定的主题域进行组织的，每一个主题对应一个宏观的分析领域，数据仓库排除对决策无用的数据，提供特定主题的简明视图。

BI中事实表，维度表和数据集市，数据仓库的理解

BI中事实表，维度表和数据集市，数据仓库的理解维度表（dimension）存放着⼀些维度属性，例如时间维度：年⽉⽇时；地域维度：省份，城市；年龄维度：⽼年，中年，青年；职称维度：⾼，中，低。

它定义了可以从哪些⾓度分析事实表。

事实表（fact）存放着⼀些业务产⽣的数据，例如：商品订购产⽣的订单信息，银⾏的流⽔信息，erp系统的办公信息。

但它不仅存放着上述事实信息，⽽且存放在事实信息与维度信息关联的键值，例如订单信息⾥⾯有⽇期字段可以和时间维度关联，可以通过银⾏中的个税流⽔与收⼊维度关联量化各个收⼊群体，erp流⽔中的员⼯号可以同职称维度表关联统计公司运⾏状态。

其实，在设计事实表与维度表的关联关系时，要引⼊两个模型结构：星型表（star）和雪花表（snow）。

顾名思义，星型表模型是事实表与每个维度表分别关联，事实表位于中央，维度表围绕事实表周围。

这种模型结构市⼀中反范式的设计⽅式。

优点是设计简单，减少了关联事实表和维度表的关联层级，查询效率会⾼⼀些，缺点是数据的冗余。

例如：事实表student(学号，年龄，姓名，国家，省份，地市，专业。

)，维度表：country（国家编码，国家名称），province(省份编码，省份名称)，city（国家编码，省份编码，城市编码，城市名称）；则在存储来⾄同⼀省份不同地市的学⽣时，国家和省份就重复存放了。

雪花表模型则是⼀种规范的范式结构，它的数据组织⽅式是消除冗余的，能有效减少数据量；优点是减少了冗余并且在关联查询中不容易出现数据重复计算的情况，因为它引⼊了数据完整性，缺点是维护复杂，增加了关联层级，执⾏效率较低。

例如：事实表student(学号，年龄，姓名，地域，专业。

)，维度表：area（地域编码，国家编码，省份编码，城市编码）country（国家编码，国家名称），province(省份编码，省份名称)，city（国家编码，省份编码，城市编码，城市名称）。

接着，有上述星型表和雪花表组成的数据集合就是⼀个数据集市（datamart），其⾯向于部门级应⽤，存放少量的历史数据，数据来源于数据仓库。

数据仓库与数据集市

维普资讯
科技情报开发与经济
文章编号：０５６３（０７１— １７０１０ — ０３２０）００８ — ３
ＳＩＴＣＦＲＡＮＤＶＬＰＥＴ＆ＥＯＯＹＣ—ＥＨＩＯＭ￣ＯＥＥＯＭＮＮＣＮＭ
Ｏｉｔ）集成的（ｎｇｔ、ｒｎｄ、ｅｅＩｅａ）与时间相关的（ｉｅａｉｔ、ｔｒｅＴｍｒｎ）但信息本身Ｖａ
又相对稳定的（ｏ — ｏａｉ）ＮｎＶｌｌ数据集合。与其他数据库应用不同的是。ｔｅ数
修改。根据数据仓库概念的含义，数据仓库拥有以下４个特点：（）向主题的。１丽操作型数据库的数据组织丽向事务处理任务。各个业务系统之间各自分离，而数据仓库中的数据按照一定的主题域进行组
织。
据仓库更像一种过程。是对分布在企业内部各处业务数据的整合、加工
和分析的过程，而不是一种可以购买的产品。
数据集市可称作“ 小数据仓库” 是用来分析相关专门业务问题或功，能目标而做的专项数据集合。它建立在具有统一数据存储模型的数据仓
库下，各级业务人员按照各部门特定的需求把数据进行复制、处理、加
库和数据集市的概念入手，绍了数据仓库和数据集市的特点、系结构、件、价介体构评
指标及其应用。
关键词：据仓库；数数据集市；分析方法中图分类号：Ｐｌ，３Ｔ３１１文献标识码：Ａ
要容易地访问多个主题时，应该创建以数据仓库为来源的数据集市。Ｒｐｉｂｌ说“ ｌＫｒｌ数据仓库仅仅是构成它的数据集市的联合 ” 他认ａｈｎａ。为“ 可以通过一系列维数相同的数据集市递增地构建数据仓库” 通过使，用“ 一致的” ，够共同看到不同数据集市中的信息，维能这表示它们拥有公共定义的元素。Ｋｉｂｌｍａｌ的方法将提供集成的数据来回答组织迫切的

数据集市DataMart

数据集市DataMart数据集市数据集市（Data Mart），也叫数据市场，为满⾜特定的部门或者⽤户需求，按照多维的⽅式进⾏存储，包括定义维度、需要计算的指标、维度的层次等，⽣成⾯向决策分析需求的数据⽴⽅体。

数据集市，迎合了专业⽤户群体的特殊需求，包括分析、内容、表现，以及易⽤性⽅⾯。

数据集市，是企业级数据仓库的⼀个⼦集，主要⾯向部门级业务，只⾯向某个特定的主题。

来源数据集市数据来源于企业范围的数据库、专业的数据仓库。

数据仓库与数据集市的区别指标数据仓库数据集市数据来源遗留系统、外部数据数据仓库范围企业级部门级或⼯作组级主题企业主题部门或特殊的分析主题数据粒度最细的粒度较粗的粒度数据结构规范化结构、星型模型、雪花模型星型模型、雪花模型历史数据⼤量的历史数据适度的历史数据优化处理海量数据/数据探索便于访问和分析/快速查询索引⾼度索引⾼度索引特征规模⼩特定的应⽤⾯向部门由业务部门定义、设计和开发业务部门管理和维护快速实现购买较便宜投资快速回收⼯具集的紧密集成提供更详细的、预先存在的、数据仓库的摘要⼦集可升级到完整的数据仓库数据结构通常为星型结构或雪花结构。

⼀个星型结构包括：事实表和维表。

事实表事实表描述数据集市中最密集的数据。

例如，呼叫中⼼的呼叫数据；银⾏中⾃动柜员机的数据；零售业的销售数据、库存数据等；维表维有围绕着事实表建⽴，通过外键与事实表相连。

数据集市类型独⽴型独⽴型数据集市的数据来⾃于操作型数据库，是为了满⾜特殊⽤户⽽建⽴的⼀种分析型环境。

优点：开发周期较短⽐较灵活缺点：脱离数据仓库容易形成信息孤岛不能以全局的视⾓去分析数据从属型从属型数据集市的数据来⾃于企业的数据仓库。

优点：体系结构⽐独⽴型数据集市更稳定提⾼了数据分析的质量保证了数据⼀致性缺点：开发周期较长。

数据仓库和数据集市

数据仓库和数据集市上海复旦德门软件有限公司朱建秋博士企业从事数据仓库项目时，往往会遇到多个数据仓库软件供应商。

各供应商除了推销相关的软件工具外，同时会向企业灌输许多概念，其中，数据仓库和数据集市是最常见的。

由于术语定义不统一，另外各个供应商销售策略不一样，往往会给企业带来很大的混淆。

最典型的问题是：到底是先上一个企业级的数据仓库呢？还是先上一个部门级的数据集市？本文试图说明这两个概念之间的区别和联系，以期对具体的数据仓库项目有所裨益。

1．为什么会出现数据仓库和数据集市？“数据仓库”的概念可以追溯到80年代中期。

从本质上讲，最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型，并尝试解决和这些数据流相关的各种问题。

在缺乏“数据仓库”体系结构的情况下，早期的决策支持环境如图1所示。

为了解决上述问题，数据仓库应运而生。

数据仓库构建了一种以集中式的数据存储为核心的体系结构，数据存储的模式为了适应决策分析的要求，从而形成一种与原来业务系统构OLTP数据源复制的数据集最终用户开发的报表环境图1：早期的决策支持系统图2：数据仓库体系结构成的操作型环境（OLTP ）相独立的决策支持环境。

数据仓库最基本的体系结构如图2所示。

图2所示的以数据仓库为基础的决策支持环境，要求数据仓库能够满足所有最终用户的需求。

另一方面，最终用户对信息的需求必须易于访问，能够在较高的性能上获得结果。

四、数据集市以及数据集市和数据仓库的区别

四、数据集市以及数据集市和数据仓库的区别数据集市(data mart) 起源：数据仓库规模⼤、周期长，⼀些规模⽐较⼩的企业⽤户难以承担。

因此，作为快速解决企业当前存在的实际问题的⼀种有效⽅法，独⽴型数据集市成为⼀种既成事实。

独⽴型数据集市是为满⾜特定⽤户（⼀般是部门级别的）的需求⽽建⽴的⼀种分析型环境，它能够快速地解决某些具体的问题，⽽且投资规模也⽐数据仓库⼩很多。

数据集市可以理解为是⼀种"⼩型数据仓库"，它只包含单个主题，且关注范围也⾮全局，数据集市也叫数据市场，是⼀个从操作的数据和其他的为某个特殊的专业⼈员团体服务的数据源中收集数据的仓库。

数据是从企业范围的数据库、数据仓库中抽取出来的。

重点在于他迎合了专业⽤户群体的特殊需求，其⾯向部门级业务或某⼀个特定的主题、良好解决了灵活性和性能之间的⽭盾。

数据集市可以分为两种⼀种是独⽴数据集市(independent data mart)，这类数据集市有⾃⼰的源数据库和ETL架构；⼀种是⾮独⽴数据集市(dependent data mart)，这种数据集市没有⾃⼰的源系统，它的数据来⾃数据仓库。

当⽤户或者应⽤程序不需要/不必要/不允许⽤到整个数据仓库的数据时，⾮独⽴数据集市就可以简单为⽤户提供⼀个数据仓库的"⼦集"。

数据集市的特征主要有：1）规模⼩；2）⾯向部门；3）有特定的应⽤主题；4）由业务部门定义、设计和开发；5）业务部门管理和维护；6）能快速实现；7）购买⽐较便宜；8）投资快速回收；9）⼯具集的紧密集成；10）提供更详细的、预先存在的、数据仓库的摘要⼦集；11）可升级到完整的数据仓库。

数据仓库(Data Warehouse) 数据仓库(Data Warehouse) 是⼀个⾯向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合⽤于⽀持管理决策。

数据仓库的基本概念

本
概
…….
念
主题域的特征：独立性，完备性
编辑ppt
15
1.主题是抽象的。即在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。是对应企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织方式：是在较高层次上对分析对象数据的一个完整、一致的描述，能完整、统一的刻画各个分析对象所涉及的企业各项数据，以及数据之间的联系。 2.DM中的数据是面向主题进行组织的。
编辑ppt
13
数据仓库的基本结构（续）
４．可视化用户界面(Visualization) 可视化前端服务：需求的分析结果显示给用户。前端服务的主要内容：用户指定分析主题，确定分析粒度与维度，对DW中的主题数据进一步汇总集成，以同步数据表、分析报告、折线图、直方图、雷达图、圆饼图等方式将分析结果用户。
较低几秒—几十分钟
念
编辑ppt
10
1-3 数据仓库的基本结构
操作型事物处理系统设计目的：简单检索（少量记录的日常操作）
复杂的分析型数据仓库设计目的：复杂查询（大量数据汇总和分类）
技术人人使用角度分：体系结构用户使用角度分：
数据仓库的基本结构由四部分组成：
编辑ppt
11
数据仓库的基本结构（续）
的
（2）维层次级别的确定
基
如：地区维的级别关系是国家地区省城市四个层次。
本
注意：数据综合时，要在同一维层次上进行求和操作。
概
念
编辑ppt
20
第
数据立方体：
一
章
数据立方体是指由两个或更多个属性即两个
数
或更多个维来描述或者分类的数据。

数据仓库与数据集市

数据仓库与数据集市随着互联网的迅猛发展，数据已经成为当今社会最重要的资产之一。

随着数据规模的增长和数据源的多样化，为商业决策提供大量数据的需求也变得越来越迫切。

为了满足这种需求，数据仓库和数据集市应运而生。

一、什么是数据仓库？数据仓库（Data Warehouse）是一个集成的、主题导向的、时态稳定的、面向主题的数据集合，用于支持企业的决策分析活动。

数据仓库将来自不同数据源的数据进行抽取、转换和加载，通常也会进行清洗和整合处理，并将结果存储在一个统一的数据库中。

数据仓库的特点包括：以主题为导向、集成多个数据源、清洗和整合数据、稳定的时态、面向用户等。

这些特点使得数据仓库成为企业管理决策的重要工具。

二、什么是数据集市？数据集市（Data Mart）是一个针对特定部门或业务领域的数据仓库，用于支持更具体的决策分析活动。

数据集市通常包含从企业数据仓库中选取的特定数据和数据源。

因此，数据集市通常更加小型化、专业化和快速。

相对于数据仓库而言，数据集市更加轻量化、灵活性更强，更适合于快速响应业务的变化。

数据集市的建设目标是更精确地满足用户的需求，比如在销售部门所需的销售数据分析等。

三、数据仓库和数据集市的优势1. 整合多个数据源：数据仓库和数据集市可以将来自不同数据源的数据整合在一起，不仅可以提高数据的完整性，还可以提供更丰富的数据维度和数据关系，更好地支持决策分析。

2. 提高决策分析效率：数据仓库和数据集市具有较高的查询性能和数据预处理能力，可以有效地支持管理决策和运营决策，提高分析效率。

3. 准确性：由于数据仓库和数据集市将来自不同数据源的数据进行清洗、整合和转换处理，可以提高数据的准确性和一致性，避免数据冲突和重复。

4. 保证安全性：数据仓库和数据集市具有较高的管理能力和安全性能，可以确保数据的保密性、完整性和可用性，有效地防止数据安全威胁。

5. 支持大数据分析：数据仓库和数据集市可以处理大规模数据的查询和分析，可以有效地支持大数据分析。

数据集市_精品文档

数据集市引言：随着大数据时代的来临，数据已经成为企业决策、创新的关键因素。

数据集市作为一种新型的数据组织形式，在数据处理、分析和利用方面具有显著的优势。

本文将深入探讨数据集市的概念、架构、类型、数据质量、扩展性、安全与隐私保护以及未来发展与挑战。

一、数据集市的概念数据集市是一个面向特定业务场景的数据存储和组织形式，旨在提供高效的数据查询、分析和可视化功能。

数据集市基于数据仓库技术，通过集中存储和管理结构化数据，为决策支持系统提供支持。

二、数据集市的架构数据源：包括各种结构化和非结构化数据，如关系型数据库、数据仓库、文件系统等。

数据集成工具：用于从数据源抽取、转换和加载数据到数据集市中。

数据存储与管理：采用分布式存储技术，实现高效的数据存储和管理。

数据查询与分析工具：提供可视化界面和工具，支持用户进行数据查询、分析和挖掘。

三、数据集市的类型独立数据集市：独立于企业级数据仓库，自成一体，适合部门级数据分析。

联邦数据集市：与企业级数据仓库相辅相成，通过联邦查询实现跨数据集市和数据仓库的数据分析。

嵌入式数据集市：将数据集市的功能集成到企业级应用中，为用户提供即时的数据分析服务。

四、数据集市的数据质量数据清洗：去除重复、错误和不一致的数据，确保数据的准确性和完整性。

数据验证：通过规则和约束检查数据的合规性和正确性。

数据标准化：将不同来源的数据进行统一处理和转换，确保数据的可比性和可理解性。

数据质量监控：实时监测数据的变化和异常，及时发现并解决数据质量问题。

五、数据集市的扩展性分布式存储与计算：采用分布式存储和计算技术，实现海量数据的存储和高效处理。

可扩展性设计：模块化设计，可根据业务需求灵活扩展存储容量、计算能力和分析功能。

水平扩展：通过增加节点数提高数据处理能力，适用于大规模数据处理和高并发请求场景。

垂直扩展：通过升级硬件设施增强服务器性能，提高单节点处理效率。

混合扩展：同时采用水平扩展和垂直扩展策略，根据实际需求进行优化配置。

数据仓库和数据集市的区别

数据仓库和数据集市的区别
见过很多⼈搞不清楚数据仓库和数据集市的区别，下⾯是我见过的最好的关于“什么是数据仓库”的回答：
“数据仓库是⼀种关系数据库模式，其中保存了来⾃⼀个或者多个源数据库的历史数据和元数据。

数据仓库的⽬的是便于将数据的报告和分析汇总到多个层次。

”
或者更简单点：
“⼀个存放企业各个领域的数据的单独且有组织的库。

”
典型的数据仓库有以下的⼀些特点：
~~涉及多个主题域
~~有⼗分详细的信息
~~集合来⾃不同数据源的数据
~~不⼀定使⽤维模型，但提供维模型
另⼀⽅⾯，数据集市（Data Mart）是数据仓库的⼀个访问层，⽤于从数据仓库抽取相关的数据给⽤户，数据集市是数据仓库的⼀个⼦集，通常⾯向特定的业务线或者团队（财政部门有他们⾃⼰的数据集市，市场部门有他们⾃⼰的数据集市，销售部门有他们⾃⼰的数据集市等等）。

根据Inmon学院对数据仓库的定义，⼀个独⽴的数据集市是更⼤的数据仓库的⼀个逻辑⼦集或物理⼦集，通常是相互独⽴的，因为数据模式和模型彼此之间不相同。

微软提出的Tabular模型则使得你可以直接从数据仓库抽取数据⽽⽆需从数据集市抽取数据。

所以，简单地说，我认为数据仓库包含多个主题域，数据集市仅仅是多个主题域中的⼀个。

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据集市≠数据仓库NCR公司可扩展数据仓库解决方案小组王闯舟编译我们知道,决策支持系统(DSS)主要有两种实现方式,即建立一个数据集市或者一个数据仓库。

到底哪一种更能满足决策支持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的一个话题。

在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12月的一篇论文中提出,"数据仓库只不过是一些数据集市的集合而已"。

认为企业多建立一些数据集市,将来自然就形成了数据仓库。

而业界公认的数据仓库之父 Bill Inmon在今年1月立即撰文反驳,旗帜鲜明地指出,"你可以在大海中捕到很多的小鱼并堆积起来,但它们仍然不是鲸"。

在5月份的《数据管理综述》(DataManagement Review)中,Bill Inmon又发表了"数据集市不等于数据仓库"的论文,进一步阐述两者在本质上的区别以及各自的适用场合,本文就是根据这篇论文的主要内容编译而成的。

问题的提出现在,各企业IT部门的经理所面临的最主要问题之一是先建立数据仓库还是先建立数据集市。

长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建立数据仓库比较复杂,投资过大,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资方案难以得到企业管理层的批准。

数据集市供应商们给业界描绘了一幅数据仓库前景暗淡的图画,这完全是出于自身的目的,是不正确的。

数据集市供应商们把数据仓库当成其增加营业收入的绊脚石,自然要避开和攻击数据仓库。

事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。

持数据集市主张的人认为,决策支持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。

方法之一就是建立多个数据集市,当它们增加得足够大时,那就是所谓的数据仓库了。

这些人声称,建立数据集市要快得多也便宜得多,因为当考虑建立一个数据集市时,不必考虑各部门之间的区别,也不必设立部门之间协调的规则,更不存在结构设计上的长期规划问题。

不幸的是,这种方法虽然避免了建立数据仓库存在的部门协调与规划上的问题,却完全偏离了数据仓库的要点。

当企业的信息结构完全由数据集市构成时,其整个组织将变得更加混乱。

因为在建立决策支持系统以前,我们可能只是原来的生产系统有些凌乱,现在的状况则可能是凌乱的生产系统再加上杂乱的数据集市。

由于企业内所有的决策支持系统均是数据集市,相互之间没有集成,其结果可想而知——没有集成的决策支持系统就像没有骨骼的人体一样,是没有实用价值的。

方式的改变早期,数据集市供应商们宣称数据集市和数据仓库是相同的系统,试图通过这种偷梁换柱的方式来进入数据仓库市场。

在各种展示会期间,他们不遗余力地进行着各种宣传,从而混淆了数据集市与数据仓库的概念。

由于这种错误概念的传播,使一些客户建立了数据集市而非真正的数据仓库。

但随着时间的推移,数据集市结构上的缺陷开始暴露出来,主要体现在以下几点:1) 各数据集市之间对详细数据和历史数据的存储存在大量冗余;2) 同一个问题在不同数据集市的查询结果可能不一致甚至相互矛盾;3) 各数据集市之间以及与源生产系统之间难以管理。

总之,业界已经普遍认同,一个没有数据仓库而建立的决策支持系统是很难达到预期效果的。

大量事实表明,为了处理决策支持方面的需求,建立数据集市不是正确的途径。

在这种情况下,数据集市供应商们及其代言人稍微改变了一些原来的说法,向客户承诺成功实施决策支持系统的新方式。

和原来不同的是,他们现在宣称,数据仓库只不过是多个数据集市的集成而已。

这从另外一方面混淆了数据仓库与数据集市的概念。

事实上,这样的论断是矛盾的。

因为数据集市的实质就是每个部门拥有自己的数据,最终用户各自负责自己的业务,相互之间没有关系,各集市之间没必要也没办法相互集成。

为了理解为什么数据集市不能转变为数据仓库,我们首先必须搞清楚两者的定义。

框架的不同1. 什么是数据集市一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。

例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。

这些部门数据集市之间相似之处很少,但最严重的缺点是,每个部门独立拥有自己的硬件平台、软件平台、数据和应用程序。

这种关系使得部门之间没有任何约束,而许多数据在整个企业内原本应该是相互制约、相互协调的。

这种独立最终导致了不一致性。

由于每个部门有自己特定的需求,因此他们对数据集市的期望也不一样。

一般说来,数据集市中数据库的设计采用星形连接 (Star-Join)的结构,这种结构对部门用户而言是最优的,但对企业范围而言则不然。

为了提高星形连接的性能,必须事先收集齐该部门业务用户的需求。

数据集市中包含的历史数据不很全,其详细程度也不够,数据选取的基本原则是能满足本部门的需求。

数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。

为了提高速度,对数据集市中的数据一般都建立大量的索引。

换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。

业界有两种数据集市,即从属数据集市和独立数据集市。

前者的数据来源于中央的数据仓库,后者的数据则直接来源于源应用环境。

所有的从属数据集市都从属于同一个数据仓库,各子系统的数据均能保持一致,因此这种数据集市的结构是可行的。

而每个独立数据集市都从各源生产系统中单独提取数据,无法保证数据的一致性;从长远来看,这种结构是不稳定也是不可行的。

图1清楚地说明了两者在结构上的区别。

遗憾的是,独立数据集市的这些问题在开始往往反映不出来,企业只有在建立了多个独立数据集市之后才能认识到其缺点。

数据集市供应商们所大力宣传的其实正是这种独立数据集市,因此在本文的讨论中,我们所指的数据集市也是独立数据集市。

@@0489400.JPG;图1@@2. 什么是数据仓库数据仓库与数据集市之间具有很大的差异。

数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。

一般来讲,数据仓库是由一个中央的协调组织 (例如传统的IT部门)来建立和管理。

数据仓库完全是整个企业共同努力的结果。

某个部门的主题与企业的主题之间可能存在也可能不存在关联。

数据仓库中存储整个企业内非常详细的数据,相对而言,数据集市中数据的详细程度要低一些,相反,它包含了许多概要和累加数据。

数据仓库的数据模型一般是规范的,比较多的是符合第三范式。

其数据的结构和内容反映的不是某个特定部门的特殊要求,它代表的是整个企业对于数据的需求。

数据仓库中的数据量与数据集市差别很大,因此,数据仓库中的索引很少。

这和传统的OLTP数据库有很大的区别。

数据仓库中包含有相对稳定的历史数据,所有数据都是从许多操作数据源中经一定的业务规则转换并集中进来的。

简而言之,在数据仓库与数据集市中,无论是数据的结构还是其内容都存在着显著的差别。

图2形象地说明了这种区别。

左边的数据集市是星形连接结构,而右边的数据仓库是正则结构,各实体之间通过外键(Foreign Key)连接。

@@0489401.JPG;图2@@由于数据仓库中的数据是详细的、集成的和历史的,其中的数据量一般都很大,而且随着时间的推移,增长速度也非常快。

因此,建立数据仓库最好是分步进行,否则建设周期将非常长。

即使从最早的文献来看,学术界就几乎公认建立数据仓库必须使最终用户能尽快看到具体、明确的结果。

直到现在,有关的专栏作者和咨询顾问们还是一致认为数据仓库的建设速度必须很快,尽量避免冗长、庞大的投资行为。

当然,这并不意味着数据仓库的投资小,正确的理解是,数据仓库一般是从小处着手, 取得一定成效后再逐步完善。

世界上许多成功的1000GB (指用户数据量而非数据库大小)级以上的数据仓库在开始时的规模都不大,这就是所谓的"全盘考虑,逐步完善"的思想。

图3给出了建立数据仓库的正确途径。

从图中可以看出,数据仓库的建设是分步进行的,每步都能取得阶段性的成果,不需要等到二、三年后才能访问数据仓库中的信息。

@@0489402.JPG;图3@@目前,数据集市的理论是,先建立一个或多个数据集市,然后把它们集成起来,当它们增长到一定规模时就变成了数据仓库。

遗憾的是,这种理论在很多方面都站不住脚:1) 数据集市是设计用来满足部门需求的,各部门的目标可能差别很大,这也是为什么企业内各部门拥有结构和特征都不同的数据集市的原因。

数据仓库则是设计用来满足企业综合需求的。

一个设计方案可以是对一个特定部门最优的,也可以是对一个企业最优的,但不可能对两者均是最优方案。

针对企业的设计目标和针对部门的差别很大。

2) 数据集市与数据仓库中数据的详细程度也完全不同。

数据集市中包含有许多概要和累计数据,而数据仓库中则包含有大量的详细数据。

显然,你可以从详细数据中计算出概要和累加数据,但反之则不行。

对业务分析而言,详细数据在很多场合都非常重要。

综上所述,我们可以归纳出以下要点:·数据集市和数据仓库中的数据模型不同,前者一般采用星形连接结构,后者则用第三范式为主;·数据集市中的历史数据信息量比数据仓库少很多;·数据集市中的主题和数据仓库中的主题关联并不很多;·数据集市中的关系与数据仓库中的关系不同;·数据集市中的查询类型与数据仓库中的查询类型差别很大;·数据集市中的用户类型 (较低层次)和数据仓库中的用户类型 (较高层次)差别很大;·数据集市的主要结构与数据仓库的主要结构具有显著的区别。

小结数据集市与数据仓库应用环境的差别很大,如果认为一个数据集市在增长到一定程度时能转换成数据仓库,那无异于说小草可以长成橡树。

虽然这两种绿色植物在生长的某个阶段具有一些相同的特征,但这并不能遮盖两者的区别。

这毕竟是现实世界,数据集市与数据仓库的道理是一样的。