数据仓库数据集市概念区别
数据仓库和数据集市的区别
数据仓库和数据集市的区别数据仓库与数据集市看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:(1) 基本概念(2) 为什么提出数据集市(3) 数据仓库设计方法论(4) 数据集市和数据仓库的区别(5) 仓库建模与集市建模(6) 案例分析:电信CRM数据仓库Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是十分重要而迫切的!通常在考虑建立数据仓库之前,会涉及到如下一些问题:(1) 采取自上而下还是自下而上的设计方法(2) 企业范围还是部门范围(3) 先建立数据仓库还是数据集市(4) 建立领航系统还是直接实施(5) 数据集市是否相互独立一、基本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。
对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准RDBMS 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。
这种类型的数据仓库设计被称为原子数据仓库。
原子数据仓库的子集,又称为数据集市。
大数据:数据仓库和数据集市的比较
大数据:数据仓库和数据集市的比较随着科技的发展,数据成为了当下最热门的话题之一。
随着互联网的普及和各行各业的信息化建设与发展,数据规模与数据类型也日益增加。
面对如此巨大的数据量,如何正确地处理和分析数据,如何从中发现有价值的信息,也日益成为了各个企业必须面对的挑战。
在处理这些大数据时,数据仓库和数据集市是两种常见的数据存储和分析方式。
本文将详细比较数据仓库和数据集市的优缺点。
一、数据仓库数据仓库是指将企业内部不同系统中的数据进行收集和汇总,形成一个一致且具有高性能的数据存储库,并且保证数据的一致性、可更新性和可查询性。
数据仓库的主要特点:1、定期批量更新数据:数据仓库通常会对企业内部的数据进行定期批量的更新,而且一般是在业务量相对较小时进行。
2、面向历史:数据仓库主要面向数据的历史信息,针对的是过去的数据。
3、专注于查询:在数据仓库中,主要对数据进行查询操作。
4、主题导向:数据仓库是围绕着业务主题进行组织的,它包含了企业整个业务的各个方面。
数据仓库的优点:1、高效性:基于数据仓库的数据分析拥有更高的业务性能,用于大量数据处理时更加简单、高效。
2、数据一致性好:由于数据仓库的数据集中存储,因此能够保证数据的一致性。
3、适用于大型企业:数据仓库的搭建需要较高的成本,会考虑到企业经营的全局信息。
数据仓库的缺点:1、对实时更新的需求差:数据仓库的数据一般是较为静态的,更新时延相对较高。
2、对数据的一致性要求高:数据仓库在数据插入、更新、删除等操作上的成本相对更高,因此数据的一致性也更加重视。
3、可变性不强:数据仓库在建库时便需要考虑到全局信息,所以数据的构建相对比较稳定。
二、数据集市数据集市是指将企业内部不同系统中的数据进行收集,然后根据需要进行分类、整合、清洗、分析等操作,组成具有相同语义的业务数据集合,提供给业务部门,以支持各个业务部门的分析需求和决策需要。
数据集市的主要特点:1、实时更新:数据集市需要及时更新数据,这样业务部门才能随时获取到最新的数据信息。
数据仓库与数据集市的区别与选择
数据仓库与数据集市的区别与选择随着信息技术的发展和数据量的快速增长,企业对数据的需求也越来越高。
为了更好地利用和管理企业的数据资产,数据仓库和数据集市成为了常用的解决方案。
本文将探讨数据仓库与数据集市的区别,并给出在不同场景下的选择建议。
一、数据仓库的定义与特点数据仓库是指将企业各个业务系统产生的数据进行整合、清洗和转换,形成一个统一、集中、一致的数据存储空间。
数据仓库通常采取面向主题的建模方式,将业务数据按照主题进行组织,例如按照销售、客户、产品等主题进行存储。
数据仓库的特点包括:1. 面向主题:数据仓库关注企业的关键主题,将数据按照主题进行组织。
2. 集成的:数据仓库整合来自不同业务系统的数据,形成一张全面的数据模型。
3. 非易失的:数据仓库中的数据一般是只读的,不可修改,保证了数据的一致性和稳定性。
4. 历史的:数据仓库中保存了历史数据,可以进行时间序列分析和趋势预测。
二、数据集市的定义与特点数据集市是面向具体业务需求的数据存储和处理环境,它是数据仓库的一种延伸和扩展。
不同于数据仓库的集中式架构,数据集市通常采用分散式的架构,根据业务需求构建多个独立的数据集市。
数据集市的特点包括:1. 面向业务需求:数据集市根据不同的业务需求构建,可以为不同的部门和角色提供定制化的数据视图。
2. 高度灵活:数据集市采用分散式架构,每个集市可以独立定义数据模型和数据存储方式,实现灵活性和快速响应业务变化的能力。
3. 实时性需求:某些业务场景下,对于数据的实时性要求较高,数据集市可以针对这些需求提供实时数据。
4. 可扩展性:数据集市可以根据业务扩展的需要,灵活添加或删除数据集市,以适应业务的发展和变化。
三、数据仓库与数据集市的区别1. 架构设计:数据仓库采用集中式的架构,将各个业务系统的数据整合到一个统一的存储空间中;而数据集市采用分散式的架构,根据业务需求构建多个独立的数据集市。
2. 数据模型:数据仓库通常采用面向主题的数据建模方式,按照主题进行数据整合和存储;而数据集市根据具体的业务需求,可以采用不同的数据模型,如关系型模型、多维模型等。
详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS
详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS01数据流向02应用示例03何为数仓DWData warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。
数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
目前行业比较流行的有:AWS Redshift,Greenplum,Hive等。
数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包含:清洗、转义、分类、重组、合并、拆分、统计等主要特点•面向主题▪操作型数据库组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。
▪主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通过与多个操作型信息系统相关。
•集成▪需要对源数据进行加工与融合,统一与综合▪在加工的过程中必须消除源数据的不一致性,以保证数据仓库内的信息时关于整个企业的一致的全局信息。
(关联关系)•不可修改▪DW中的数据并不是最新的,而是来源于其他数据源▪数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询•与时间相关▪处于决策的需要数据仓库中的数据都需要标明时间属性与数据库的对比•DW:专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势•数据库:用于捕获和存储数据04为何要分层数据仓库中涉及到的问题:1.为什么要做数据仓库?2.为什么要做数据质量管理?3.为什么要做元数据管理?4.数仓分层中每个层的作用是什么?5.…...在实际的工作中,我们都希望自己的数据能够有顺序地流转,设计者和使用者能够清晰地知道数据的整个声明周期,比如下面左图。
但是,实际情况下,我们所面临的数据状况很有可能是复杂性高、且层级混乱的,我们可能会做出一套表依赖结构混乱,且出现循环依赖的数据体系,比如下面的右图。
数据仓库-数据集市-BI-数据分析-介绍
数据仓库-数据集市-BI-数据分析-介绍数据仓库数据集市BI数据分析介绍在当今数字化的时代,数据已经成为企业和组织最宝贵的资产之一。
如何有效地管理、分析和利用这些数据,以获取有价值的信息和洞察,成为了摆在众多企业面前的重要课题。
在这个过程中,数据仓库、数据集市、商业智能(BI)和数据分析等技术和概念发挥着至关重要的作用。
接下来,让我们一起深入了解一下这些概念。
数据仓库,简单来说,就是一个用于存储和管理企业数据的大型数据库系统。
它的目的是将来自不同数据源(如操作系统、数据库、文件等)的数据整合到一个统一的、一致的环境中,以便进行分析和决策支持。
数据仓库中的数据通常是经过清洗、转换和集成的,以确保数据的质量和一致性。
它采用了特定的架构和技术,如星型模式、雪花模式等,来优化数据的存储和查询性能。
数据仓库就像是一个大型的数据仓库,将各种各样的数据收集起来,经过整理和分类,以便后续的使用。
与数据仓库密切相关的是数据集市。
数据集市可以看作是数据仓库的一个子集,它专注于特定的业务领域或主题,例如销售数据集市、客户数据集市等。
数据集市的数据来源于数据仓库,经过进一步的筛选和加工,以满足特定业务部门或用户的需求。
数据集市的规模通常比数据仓库小,但更具针对性和灵活性,能够更快地提供相关的数据和分析结果。
接下来,我们谈谈商业智能(BI)。
BI 是一套用于将数据转化为有价值的信息和知识的技术和工具。
它包括数据报表、数据可视化、数据挖掘、联机分析处理(OLAP)等功能。
通过 BI 系统,用户可以以直观的方式查看和分析数据,从而发现数据中的趋势、模式和关系。
BI 帮助企业管理层做出更明智的决策,提高企业的竞争力和运营效率。
例如,通过数据报表,管理层可以清晰地了解企业的销售业绩、成本支出等情况;通过数据可视化,复杂的数据可以以图表、地图等形式展现,更容易理解和分析。
数据分析则是一个更广泛的概念,它涵盖了从数据收集、数据处理、数据分析到结果解释和报告的整个过程。
数据仓库数据集市概念区别
数据仓库数据集市概念区别数据集市≠数据仓库NCR公司可扩展数据仓库解决⽅案⼩组王闯⾈编译我们知道,决策⽀持系统(DSS)主要有两种实现⽅式,即建⽴⼀个数据集市或者⼀个数据仓库。
到底哪⼀种更能满⾜决策⽀持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的⼀个话题。
在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12⽉的⼀篇论⽂中提出,"数据仓库只不过是⼀些数据集市的集合⽽已"。
认为企业多建⽴⼀些数据集市,将来⾃然就形成了数据仓库。
⽽业界公认的数据仓库之⽗ Bill Inmon在今年1⽉⽴即撰⽂反驳,旗帜鲜明地指出,"你可以在⼤海中捕到很多的⼩鱼并堆积起来,但它们仍然不是鲸"。
在5⽉份的《数据管理综述》(DataManage ment Review)中,Bill Inmon⼜发表了"数据集市不等于数据仓库"的论⽂,进⼀步阐述两者在本质上的区别以及各⾃的适⽤场合,本⽂就是根据这篇论⽂的主要内容编译⽽成的。
问题的提出现在,各企业IT部门的经理所⾯临的最主要问题之⼀是先建⽴数据仓库还是先建⽴数据集市。
长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建⽴数据仓库⽐较复杂,投资过⼤,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资⽅案难以得到企业管理层的批准。
数据集市供应商们给业界描绘了⼀幅数据仓库前景暗淡的图画,这完全是出于⾃⾝的⽬的,是不正确的。
数据集市供应商们把数据仓库当成其增加营业收⼊的绊脚⽯,⾃然要避开和攻击数据仓库。
事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。
持数据集市主张的⼈认为,决策⽀持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。
⽅法之⼀就是建⽴多个数据集市,当它们增加得⾜够⼤时,那就是所谓的数据仓库了。
数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别
数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别数据仓库vs.数据集市数据集市和数据仓库经常会被混淆,但两者的用途明显不同。
数据集市通常是数据仓库的子集;它等数据通常来自数据仓库– 尽管还可以来自其他来源。
数据集市的数据专门针对特定的用户社区(例如销售团队),以便他们能够快速找到所需的数据。
通常,数据保存在那里用于特定用途,例如财务分析。
数据集市也比数据仓库小得多– 它们可以容纳数十千兆字节,相比之下,数据仓库可以存储数百千兆字节到PB级数据,并可用于数据处理。
数据集市可从现有数据仓库或其他数据源系统构建,你只需设计和构建数据库表,使用相关数据填充数据库表并决定谁可以访问数据集即可。
数据仓库vs.ODS操作数据存储(ODS)是一种数据库,用作所有原始数据的临时存储区域,这些数据即将进入数据仓库进行数据处理。
我们可以将其想象成仓库装卸码头,货物在此处交付、检查和验证。
在ODS中,数据在进入仓库前可以被清理、检查(因为冗余目的),也可检查是否符合业务规则。
在ODS中,我们可以对数据进行查询,但是数据是临时的,因此它仅提供简单信息查询,例如正在进行的客户订单状态。
ODS通常运行在关系数据库管理系统(RDBMS)或Hadoop平台。
关系型数据库vs.数据仓库和数据湖数据仓库、数据湖与关系数据库系统之间的主要区别在于:关系数据库用于存储和整理来自单个来源(例如事务系统)的结构化数据,而数据仓库则用于存储来自多个来源的结构化数据。
数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。
关系数据库创建起来相对简单,可用于存储和整理实时数据,例如交易数据等。
关系数据库的缺点是它们不支持非结构化数据库数据或现在不断生成的大量数据。
这使得我们只能在数据仓库与数据湖间做出选择。
尽管如此,很多企业仍然继续依赖关系数据库来完成运营数据分析或趋势分析等任务。
内部或云端可用的关系数据库包括Microsoft SQL Server、Oracle数据库、MySQL和IBM Db2、以及Amazon Relational Database Service、Google Cloud Spanner等。
数据仓库中ODS、DW与DM之间关系
数据仓库中ODS、DW与DM之间关系在数据仓库架构中ODS(操作数据存储)、DW(数据仓库)和DM(数据集市)是不同的层次。
它们之间有明显的区别,并且相互协作来支持数据管理和分析,具体详见下图:接下来分别对ODS、DW和DM进行详细介绍。
ODS介绍ODS是操作性数据(Operational Data Store) 简称:操作性数据存储。
ODS是数据仓库中的一个中间层,它主要用于将源系统的数据进行整合和转换,但并不进行复杂的分析或聚合。
ODS 旨在保留源系统数据的完整性,支持实时或接近实时的数据访问和操作。
它通常包含原始数据和经过简单处理的数据。
特征如下:●ODS直接存放从业务抽取过来的数据,这些数据从结构和数据上与业务系统保持一致,降低了数据抽取的复杂性。
●转移一部分业务系统的细节查询功能,因为ODS存放的数据与业务系统相同,原来有业务系统产生的报表,现在可以从ODS中产生。
●完成数据仓库中不能完成的功能,ODS存放的是明细数据,数据仓库DW或数据集市DM都存放的是汇聚数据,ODS提供查询明细的功能。
●ODS数据只能增加不能修改,而且数据都是业务系统原样拷贝,所以可能存在数据冲突的可能,解决办法是为每一条数据增加一个时间版本来区分相同的数据。
DW介绍DW是数据仓库(Data Warehouse)的简称:DW是一个经过专门处理和优化的数据存储区域,用于支持复杂的分析、查询和报告。
DW采用了不同的数据模型(如星型模型或雪花模型)和聚合技术,以提供快速的决策支持和报表功能。
DW具有历史数据存储、集成和标准化数据等特点,可以满足企业级的数据分析需求。
特征如下:●效率足够高,要对进入的数据快速处理。
●数据质量高,数据仓库是提供很多决策需要的数据支撑,DW的数据应该是唯一的具有权威性的数据,企业的所有系统只能从DW取数据,所以需要定期对DW里面的数据进行质量审,保证DW里边数据的唯一、权威、准确性。
●扩展性,企业业务扩展和降低企业建设数据仓库的成本考虑●面向主题,数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。
数据仓库与数据集市
科技情报开发与经济
文章 编 号 :0 5 6 3 (0 7 1— 17 0 10 — 0 32 0 )0 0 8 — 3
S IT C F R A ND V L P E T&E O O Y C—E HI O M  ̄O E E O M N N C NM
O i t )集成 的(n g t 、 rnd、 ee I e a ) 与时间相关 的( i e ai t 、 tre Tm r n )但信息 本身 V a
又相对稳定 的( o — oai ) N n V l l 数据集合 。与其他数据库应 用不 同的是 。 te 数
修改 。 根据数据仓库概念的含义 , 数据仓库拥有以下 4 个特点 : ( ) 向主题的。 1丽 操作型数据 库的数据组织丽向事务处理任务 。 各个 业务系统之间各 自分离 , 而数据仓库中的数据按照一定的主题域进行组
织。
据仓库更像一种过 程 。 是对分布在企业 内部各处 业务数据 的整合 、 加工
和分析的过程 , 而不是一种可以购买的产 品。
数据集 市可称作“ 小数据仓库” 是用来分析相关专门业务问题或功 , 能目 标而做 的专项数据集合。 它建立在具有统一数据存储模型的数据仓
库下 ,各级业务人员按照各部门特定的需求 把数据进行复制 、处 理、 加
库 和 数 据 集 市 的 概 念 入 手 , 绍 了数 据 仓 库 和数 据 集 市 的 特 点 、 系结 构 、 件 、 价 介 体 构 评
指 标 及其 应 用 。
关键 词 : 据仓 库 ; 数 数据 集 市 ; 分析 方 法 中 图分 类 号 :P l,3 T31 1 文 献标 识 码 : A
要 容易地访问多个主题时 , 应该创建以数据仓库为来源的数据集 市。 R p i bl说“ l K r l 数据仓库 仅仅是构成它的数据集 市的联合 ” 他认 a h na 。 为“ 可以通过一系列维数相同的数据集市递增地构建数据仓库” 通过使 , 用“ 一致的” , 够共同看到不 同数据集 市中的信息 , 维 能 这表示 它们拥有 公共定义的元 素。Kib l ma l的方法将提供集成 的数据来 回答组织 迫切的
数据集市DataMart
数据集市DataMart数据集市数据集市(Data Mart),也叫数据市场,为满⾜特定的部门或者⽤户需求,按照多维的⽅式进⾏存储,包括定义维度、需要计算的指标、维度的层次等,⽣成⾯向决策分析需求的数据⽴⽅体。
数据集市,迎合了专业⽤户群体的特殊需求,包括分析、内容、表现,以及易⽤性⽅⾯。
数据集市,是企业级数据仓库的⼀个⼦集,主要⾯向部门级业务,只⾯向某个特定的主题。
来源数据集市数据来源于企业范围的数据库、专业的数据仓库。
数据仓库与数据集市的区别指标数据仓库数据集市数据来源遗留系统、外部数据数据仓库范围企业级部门级或⼯作组级主题企业主题部门或特殊的分析主题数据粒度最细的粒度较粗的粒度数据结构规范化结构、星型模型、雪花模型星型模型、雪花模型历史数据⼤量的历史数据适度的历史数据优化处理海量数据/数据探索便于访问和分析/快速查询索引⾼度索引⾼度索引特征规模⼩特定的应⽤⾯向部门由业务部门定义、设计和开发业务部门管理和维护快速实现购买较便宜投资快速回收⼯具集的紧密集成提供更详细的、预先存在的、数据仓库的摘要⼦集可升级到完整的数据仓库数据结构通常为星型结构或雪花结构。
⼀个星型结构包括:事实表和维表。
事实表事实表描述数据集市中最密集的数据。
例如,呼叫中⼼的呼叫数据;银⾏中⾃动柜员机的数据;零售业的销售数据、库存数据等;维表维有围绕着事实表建⽴,通过外键与事实表相连。
数据集市类型独⽴型独⽴型数据集市的数据来⾃于操作型数据库,是为了满⾜特殊⽤户⽽建⽴的⼀种分析型环境。
优点:开发周期较短⽐较灵活缺点:脱离数据仓库容易形成信息孤岛不能以全局的视⾓去分析数据从属型从属型数据集市的数据来⾃于企业的数据仓库。
优点:体系结构⽐独⽴型数据集市更稳定提⾼了数据分析的质量保证了数据⼀致性缺点:开发周期较长。
数据仓库和数据集市
数据仓库和数据集市上海复旦德门软件有限公司 朱建秋 博士企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。
各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。
由于术语定义不统一,另外各个供应商销售策略不一样,往往会给企业带来很大的混淆。
最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级的数据集市?本文试图说明这两个概念之间的区别和联系,以期对具体的数据仓库项目有所裨益。
1.为什么会出现数据仓库和数据集市?“数据仓库”的概念可以追溯到80年代中期。
从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。
在缺乏“数据仓库”体系结构的情况下,早期的决策支持环境如图1所示。
企业内部存在许多冗余的、重复建设的决策支持系统(通常是报表系统),这些系统被不同类型的用户使用,数据的抽取层次复杂,最初在OLTP 上抽取,再在抽取后的数据集上抽取,如此等等,呈“蜘蛛网”状,由于没有公共的数据源,并且数据没有时间点,导致了产生的报表可信度下降,数据不一致问题特别显著,更不用说转化为有效的决策信息。
为了解决上述问题,数据仓库应运而生。
数据仓库构建了一种以集中式的数据存储为核心的体系结构,数据存储的模式为了适应决策分析的要求,从而形成一种与原来业务系统构OLTP数据源 复制的数据集 最终用户开发的报表环境图1:早期的决策支持系统图2:数据仓库体系结构成的操作型环境(OLTP )相独立的决策支持环境。
数据仓库最基本的体系结构如图2所示。
图2所示的以数据仓库为基础的决策支持环境,要求数据仓库能够满足所有最终用户的需求。
然而,最终用户的需求是不断变化的,而且各种类型的用户对信息的需求也不一样,这就要求数据仓库存储的数据具有充分的灵活性,能够适应各类用户的查询和分析。
另一方面,最终用户对信息的需求必须易于访问,能够在较高的性能上获得结果。
数据仓库与数据集市
数据仓库与数据集市随着互联网的迅猛发展,数据已经成为当今社会最重要的资产之一。
随着数据规模的增长和数据源的多样化,为商业决策提供大量数据的需求也变得越来越迫切。
为了满足这种需求,数据仓库和数据集市应运而生。
一、什么是数据仓库?数据仓库(Data Warehouse)是一个集成的、主题导向的、时态稳定的、面向主题的数据集合,用于支持企业的决策分析活动。
数据仓库将来自不同数据源的数据进行抽取、转换和加载,通常也会进行清洗和整合处理,并将结果存储在一个统一的数据库中。
数据仓库的特点包括:以主题为导向、集成多个数据源、清洗和整合数据、稳定的时态、面向用户等。
这些特点使得数据仓库成为企业管理决策的重要工具。
二、什么是数据集市?数据集市(Data Mart)是一个针对特定部门或业务领域的数据仓库,用于支持更具体的决策分析活动。
数据集市通常包含从企业数据仓库中选取的特定数据和数据源。
因此,数据集市通常更加小型化、专业化和快速。
相对于数据仓库而言,数据集市更加轻量化、灵活性更强,更适合于快速响应业务的变化。
数据集市的建设目标是更精确地满足用户的需求,比如在销售部门所需的销售数据分析等。
三、数据仓库和数据集市的优势1. 整合多个数据源:数据仓库和数据集市可以将来自不同数据源的数据整合在一起,不仅可以提高数据的完整性,还可以提供更丰富的数据维度和数据关系,更好地支持决策分析。
2. 提高决策分析效率:数据仓库和数据集市具有较高的查询性能和数据预处理能力,可以有效地支持管理决策和运营决策,提高分析效率。
3. 准确性:由于数据仓库和数据集市将来自不同数据源的数据进行清洗、整合和转换处理,可以提高数据的准确性和一致性,避免数据冲突和重复。
4. 保证安全性:数据仓库和数据集市具有较高的管理能力和安全性能,可以确保数据的保密性、完整性和可用性,有效地防止数据安全威胁。
5. 支持大数据分析:数据仓库和数据集市可以处理大规模数据的查询和分析,可以有效地支持大数据分析。
数据仓库设计与建模的数据仓库与数据集市比较(一)
数据仓库设计与建模的数据仓库与数据集市比较在当今信息化时代,大量的数据不断涌现,如何有效地管理和分析这些数据成为了企业面临的重要挑战。
为了解决这一问题,数据仓库和数据集市成为了两种常见的数据管理和分析方法。
本文将对数据仓库和数据集市进行比较,探讨它们在数据管理和分析方面的异同。
一、概念和定义1. 数据仓库数据仓库是一种面向主题、集成、时变且非易失的数据集合,用于支持企业决策和分析。
它的主要特点包括面向主题,即按照业务需求对数据进行组织;集成性,即对来自不同数据源的数据进行集成;时变性,即可以保存历史数据并进行时间分析;非易失性,即数据仓库中的数据不会轻易被修改或删除。
2. 数据集市数据集市是数据仓库的一个子集,用于特定业务领域或业务部门的数据管理和分析。
它以业务需求为导向,将数据仓库中的数据进行精细化划分和组织,提供给特定用户群体使用。
二、特点比较1. 数据仓库的特点数据仓库具有面向主题、集成、时变和非易失的特点,它将企业各个业务领域的数据进行整合和统一,提供给决策者和分析师使用。
数据仓库能够支持跨业务领域的数据分析和决策,具有较高的综合性和全局性。
2. 数据集市的特点数据集市是根据特定业务需求进行划分和组织的数据仓库子集,它的特点主要体现在以下几个方面。
首先,数据集市面向特定的用户群体,提供该用户群体所需的数据。
其次,数据集市更加专注于特定业务领域,数据模型和分析方法更加精细化。
最后,数据集市可以快速响应业务变化和需求变化,具有较高的灵活性和敏捷性。
三、应用场景比较1. 数据仓库的应用场景数据仓库适用于跨业务领域的数据分析和决策需求,比如企业的整体营销分析、客户关系管理等。
它可以提供企业全局视角下的数据支持,帮助企业进行战略规划和决策制定。
2. 数据集市的应用场景数据集市适用于特定业务领域的数据分析和决策需求,比如销售部门的销售业绩分析、人力资源部门的员工绩效分析等。
它可以根据不同部门或业务领域的具体需求,提供定制化的数据支持,帮助用户更好地了解业务状况和做出相应决策。
数据仓库和数据集市的区别
数据仓库和数据集市的区别
见过很多⼈搞不清楚数据仓库和数据集市的区别,下⾯是我见过的最好的关于“什么是数据仓库”的回答:
“数据仓库是⼀种关系数据库模式,其中保存了来⾃⼀个或者多个源数据库的历史数据和元数据。
数据仓库的⽬的是便于将数据的报告和分析汇总到多个层次。
”
或者更简单点:
“⼀个存放企业各个领域的数据的单独且有组织的库。
”
典型的数据仓库有以下的⼀些特点:
~~涉及多个主题域
~~有⼗分详细的信息
~~集合来⾃不同数据源的数据
~~不⼀定使⽤维模型,但提供维模型
另⼀⽅⾯,数据集市(Data Mart)是数据仓库的⼀个访问层,⽤于从数据仓库抽取相关的数据给⽤户,数据集市是数据仓库的⼀个⼦集,通常⾯向特定的业务线或者团队(财政部门有他们⾃⼰的数据集市,市场部门有他们⾃⼰的数据集市,销售部门有他们⾃⼰的数据集市等等)。
根据Inmon学院对数据仓库的定义,⼀个独⽴的数据集市是更⼤的数据仓库的⼀个逻辑⼦集或物理⼦集,通常是相互独⽴的,因为数据模式和模型彼此之间不相同。
微软提出的Tabular模型则使得你可以直接从数据仓库抽取数据⽽⽆需从数据集市抽取数据。
所以,简单地说,我认为数据仓库包含多个主题域,数据集市仅仅是多个主题域中的⼀个。
数据仓库数据集市建设方法与应用
数据仓库数据集市建设方法与应用在当今大数据时代,数据的管理和应用变得愈发重要。
数据仓库数据集市作为数据管理的一种有效方式,被广泛应用于各行各业。
本文将介绍数据仓库数据集市的定义、建设方法和应用,并探讨其在实际业务场景中的作用和意义。
一、数据仓库数据集市的定义数据仓库数据集市是指在数据仓库的基础上,通过对数据进行重新组织、整合和加工,形成以主题为导向、专门为特定部门或业务需求而建立的数据集中区域。
它具备独立的数据模型和数据结构,以满足特定的业务分析和决策需求。
二、数据仓库数据集市的建设方法1. 数据需求分析:首先需要明确业务部门的数据需求和分析目标,对所需数据进行深入分析和理解。
这包括数据的来源、更新频率、格式、数据质量等方面的考虑。
2. 数据源集成:在明确数据需求后,需要通过数据集成技术和工具,从各种数据源中抽取、转换和加载数据,将其导入数据仓库中。
这一步骤涉及到数据清洗、转换和整合等工作,以确保数据的准确性和一致性。
3. 数据仓库建模:在数据源集成完成后,需要对数据仓库进行建模,设计合适的数据模型和结构,以适应特定的业务需求。
这包括维度建模、事实表建模等步骤,以实现对数据的灵活查询和分析。
4. 业务规则定义:在数据仓库数据集市中,为了满足不同业务部门的需求,需要定义相应的业务规则。
这包括数据的计算、衍生、汇总等方面的规则,以支持各种复杂的业务分析和报表生成。
5. 数据访问和分析:建设完数据仓库数据集市后,业务部门可以通过相关工具和平台,访问数据、进行数据查询和分析。
这些工具和平台可以提供各种数据可视化、报表生成、数据挖掘等功能,以支持业务部门的决策和预测分析。
三、数据仓库数据集市的应用1. 业务智能分析:数据仓库数据集市可以提供多维分析和数据挖掘功能,为业务部门提供灵活的业务分析能力。
通过对大量数据的整合和分析,可以发现隐藏在数据中的规律和趋势,支持决策和预测分析。
2. 实时决策支持:数据仓库数据集市可以对数据进行实时的采集和处理,为业务部门提供及时的决策支持。
数据仓库的基本架构
数据仓库的基本架构数据仓库是一个用于集成、存储和管理企业中各种类型数据的中心化系统。
它提供了一个统一的视图,帮助企业进行数据分析、决策支持和业务智能。
数据仓库的基本架构是指数据仓库系统中各个组件和层级之间的关系和交互方式。
下面将详细介绍数据仓库的基本架构。
1. 数据源层数据源层是数据仓库的基础,它包含了各种类型的数据源,如关系型数据库、文件、Web服务等。
这些数据源可以是企业内部的各个业务系统,也可以是外部的数据提供商。
在数据源层,数据会经过抽取、清洗和转换等处理,以适应后续的数据仓库需求。
2. 数据抽取层数据抽取层负责从数据源层获取数据,并将其转换为数据仓库可用的格式。
在这一层,可以使用各种数据抽取工具和技术,如ETL(抽取、转换、加载)工具、数据集成工具等。
数据抽取层的主要任务是将数据抽取到数据仓库中,并进行必要的清洗、转换和整合,以确保数据的质量和一致性。
3. 数据存储层数据存储层是数据仓库中最核心的组件,它负责存储和管理数据。
数据存储层通常由两个部分组成:数据仓库和数据集市。
数据仓库是一个面向主题的、集成的、稳定的存储区域,用于存储企业中各个业务领域的数据。
数据集市是一个面向用户的、专门针对某个业务领域的存储区域,用于提供更加精细化的数据分析和报表需求。
4. 元数据管理层元数据是描述数据的数据,它包含了数据的定义、结构、关系和属性等信息。
元数据管理层负责管理和维护元数据,以支持数据仓库的开发、维护和使用。
在这一层,可以使用元数据管理工具和技术,如数据字典、元数据仓库等。
元数据管理层的主要任务是确保数据的准确性、一致性和可理解性,并提供给用户方便的数据查询和导航功能。
5. 数据访问层数据访问层是数据仓库与用户之间的接口,它提供了各种数据访问工具和技术,如OLAP(联机分析处理)工具、报表工具、数据挖掘工具等。
数据访问层的主要任务是向用户提供方便、灵活、高效的数据查询和分析功能,以满足不同用户的需求。
集合系统的名词解释
集合系统的名词解释随着科技的不断发展,各种集合系统在我们的日常生活中扮演着越来越重要的角色。
从社交媒体平台到电商网站,从智能家居到自动驾驶系统,无一不依赖于集合系统的设计和优化。
然而,在我们谈论这些系统时,很少有人能清晰地解释它们背后的核心概念。
因此,本文旨在对集合系统的一些重要名词进行解释,以帮助读者更好地理解和应用这些概念。
1. 数据库(Database)数据库是集合系统的核心组成部分之一。
它是指按一定的结构和规则组织起来的、用于存储和管理大量数据的集合。
数据库通常由一个或多个表组成,每个表由行和列组成,分别代表数据的记录和属性。
通过数据库,我们可以方便地存储、查询和更新大量数据,保证数据的一致性和完整性。
2. 数据仓库(Data Warehouse)数据仓库指的是一个用于存储大量历史数据的集中式仓库。
与传统的数据库不同,数据仓库旨在支持决策支持和分析工作,而不是日常的事务处理。
数据仓库通常采用异构的数据源,并经过清洗、集成和转换,以提供决策者所需的一致、准确的数据视图。
数据仓库的架构通常分为数据提取、数据转换、数据加载和数据查询等环节,以确保数据的完整性和可用性。
3. 数据挖掘(Data Mining)数据挖掘是一种通过在大规模数据集中发现模式和规律的技术。
它包括从数据中提取特征、进行统计分析、构建模型和预测未来趋势等过程。
数据挖掘可以帮助我们发现隐藏在庞杂数据背后的知识,为决策和预测提供支持。
常见的数据挖掘技术包括聚类、分类、关联规则挖掘和异常检测等。
4. 人工智能(Artificial Intelligence)人工智能是一种使机器能够像人类一样思考和行动的技术。
在集合系统中,人工智能常常用于处理和分析大量数据,以及实现自动化的决策和推荐。
其中,机器学习是人工智能的重要方法之一,它通过从数据中学习并建立模型,实现对未知数据的预测和分类。
5. 云计算(Cloud Computing)云计算是一种通过网络提供计算资源和服务的模式。
数据集市_精品文档
数据集市引言:随着大数据时代的来临,数据已经成为企业决策、创新的关键因素。
数据集市作为一种新型的数据组织形式,在数据处理、分析和利用方面具有显著的优势。
本文将深入探讨数据集市的概念、架构、类型、数据质量、扩展性、安全与隐私保护以及未来发展与挑战。
一、数据集市的概念数据集市是一个面向特定业务场景的数据存储和组织形式,旨在提供高效的数据查询、分析和可视化功能。
数据集市基于数据仓库技术,通过集中存储和管理结构化数据,为决策支持系统提供支持。
二、数据集市的架构数据源:包括各种结构化和非结构化数据,如关系型数据库、数据仓库、文件系统等。
数据集成工具:用于从数据源抽取、转换和加载数据到数据集市中。
数据存储与管理:采用分布式存储技术,实现高效的数据存储和管理。
数据查询与分析工具:提供可视化界面和工具,支持用户进行数据查询、分析和挖掘。
三、数据集市的类型独立数据集市:独立于企业级数据仓库,自成一体,适合部门级数据分析。
联邦数据集市:与企业级数据仓库相辅相成,通过联邦查询实现跨数据集市和数据仓库的数据分析。
嵌入式数据集市:将数据集市的功能集成到企业级应用中,为用户提供即时的数据分析服务。
四、数据集市的数据质量数据清洗:去除重复、错误和不一致的数据,确保数据的准确性和完整性。
数据验证:通过规则和约束检查数据的合规性和正确性。
数据标准化:将不同来源的数据进行统一处理和转换,确保数据的可比性和可理解性。
数据质量监控:实时监测数据的变化和异常,及时发现并解决数据质量问题。
五、数据集市的扩展性分布式存储与计算:采用分布式存储和计算技术,实现海量数据的存储和高效处理。
可扩展性设计:模块化设计,可根据业务需求灵活扩展存储容量、计算能力和分析功能。
水平扩展:通过增加节点数提高数据处理能力,适用于大规模数据处理和高并发请求场景。
垂直扩展:通过升级硬件设施增强服务器性能,提高单节点处理效率。
混合扩展:同时采用水平扩展和垂直扩展策略,根据实际需求进行优化配置。
大数据平台的3个核心功能
大数据平台的3个核心功能
导读
大数据平台可以分为操作数据存储(ODS)、数据仓库(DW)和数据集市(DM)三层,分别对应着数据清洗、数据管理和数据应用这三个核心功能。
▲数据架构示意图
一、原始数据清洗
操作数据存储(Operational Data Store,ODS),又被称为贴源层,是原始数据经过ETL(Extract-Transform-Load)清洗后存储的位置。
ODS通常有如下几个作用。
▪在业务系统和数据仓库之间做了隔离,将业务系统产生的原始数据备份的同时,保证了两个系统之间数据的一致性。
▪存储了业务侧的明细数据,方便后续的查询和加工以及报表的产出。
▪完成数据仓库中不能实现的一些功能,相比于DW和DM层通常使用Hive查询,ODS一般利用更底层的编程语言加工而成,可以实现一些更复杂和更高效的ETL操作。
此外,ODS层保留了大量的历史明细数据,通常约定只能增加不能修改,利用时间分区的方式进行区分。
二、数据仓库管理
数据仓库(Data Warehouse,DW)是企业级数据集中汇总的位置。
DW 层最大的特点是面向主题,根据不同的主题设计表的结构和内容,这样做的好处是排除了与主题无关的冗余数据,提高了特定主题下的查询和加工效率。
另一方面,数据仓库作为连接原始数据和标签之间的中间层,必须保证数据质量,包括唯一性、权威性、准确性等。
以风控主题为例,DW层中通常会包括授信、支用、还款、催收等一系列数据,方便后期相关标签的计算。
另外,还会有一些公用的维度表被存在与DW层。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据集市≠数据仓库NCR公司可扩展数据仓库解决方案小组王闯舟编译我们知道,决策支持系统(DSS)主要有两种实现方式,即建立一个数据集市或者一个数据仓库。
到底哪一种更能满足决策支持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的一个话题。
在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12月的一篇论文中提出,"数据仓库只不过是一些数据集市的集合而已"。
认为企业多建立一些数据集市,将来自然就形成了数据仓库。
而业界公认的数据仓库之父 Bill Inmon在今年1月立即撰文反驳,旗帜鲜明地指出,"你可以在大海中捕到很多的小鱼并堆积起来,但它们仍然不是鲸"。
在5月份的《数据管理综述》(DataManage ment Review)中,Bill Inmon又发表了"数据集市不等于数据仓库"的论文,进一步阐述两者在本质上的区别以及各自的适用场合,本文就是根据这篇论文的主要内容编译而成的。
问题的提出现在,各企业IT部门的经理所面临的最主要问题之一是先建立数据仓库还是先建立数据集市。
长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建立数据仓库比较复杂,投资过大,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资方案难以得到企业管理层的批准。
数据集市供应商们给业界描绘了一幅数据仓库前景暗淡的图画,这完全是出于自身的目的,是不正确的。
数据集市供应商们把数据仓库当成其增加营业收入的绊脚石,自然要避开和攻击数据仓库。
事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。
持数据集市主张的人认为,决策支持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。
方法之一就是建立多个数据集市,当它们增加得足够大时,那就是所谓的数据仓库了。
这些人声称,建立数据集市要快得多也便宜得多,因为当考虑建立一个数据集市时,不必考虑各部门之间的区别,也不必设立部门之间协调的规则,更不存在结构设计上的长期规划问题。
不幸的是,这种方法虽然避免了建立数据仓库存在的部门协调与规划上的问题,却完全偏离了数据仓库的要点。
当企业的信息结构完全由数据集市构成时,其整个组织将变得更加混乱。
因为在建立决策支持系统以前,我们可能只是原来的生产系统有些凌乱,现在的状况则可能是凌乱的生产系统再加上杂乱的数据集市。
由于企业内所有的决策支持系统均是数据集市,相互之间没有集成,其结果可想而知——没有集成的决策支持系统就像没有骨骼的人体一样,是没有实用价值的。
方式的改变早期,数据集市供应商们宣称数据集市和数据仓库是相同的系统,试图通过这种偷梁换柱的方式来进入数据仓库市场。
在各种展示会期间,他们不遗余力地进行着各种宣传, 从而混淆了数据集市与数据仓库的概念。
由于这种错误概念的传播,使一些客户建立了数据集市而非真正的数据仓库。
但随着时间的推移,数据集市结构上的缺陷开始暴露出来,主要体现在以下几点:1) 各数据集市之间对详细数据和历史数据的存储存在大量冗余;2) 同一个问题在不同数据集市的查询结果可能不一致甚至相互矛盾;3) 各数据集市之间以及与源生产系统之间难以管理。
总之,业界已经普遍认同,一个没有数据仓库而建立的决策支持系统是很难达到预期效果的。
大量事实表明,为了处理决策支持方面的需求,建立数据集市不是正确的途径。
在这种情况下,数据集市供应商们及其代言人稍微改变了一些原来的说法,向客户承诺成功实施决策支持系统的新方式。
和原来不同的是,他们现在宣称,数据仓库只不过是多个数据集市的集成而已。
这从另外一方面混淆了数据仓库与数据集市的概念。
事实上,这样的论断是矛盾的。
因为数据集市的实质就是每个部门拥有自己的数据,最终用户各自负责自己的业务,相互之间没有关系,各集市之间没必要也没办法相互集成。
为了理解为什么数据集市不能转变为数据仓库,我们首先必须搞清楚两者的定义。
框架的不同1. 什么是数据集市一般说来,一个数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。
例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。
这些部门数据集市之间相似之处很少,但最严重的缺点是,每个部门独立拥有自己的硬件平台、软件平台、数据和应用程序。
这种关系使得部门之间没有任何约束,而许多数据在整个企业内原本应该是相互制约、相互协调的。
这种独立最终导致了不一致性。
由于每个部门有自己特定的需求,因此他们对数据集市的期望也不一样。
一般说来,数据集市中数据库的设计采用星形连接 (Star-Join)的结构,这种结构对部门用户而言是最优的,但对企业范围而言则不然。
为了提高星形连接的性能,必须事先收集齐该部门业务用户的需求。
数据集市中包含的历史数据不很全,其详细程度也不够,数据选取的基本原则是能满足本部门的需求。
数据集市大都采用多维数据库技术,这种技术对数据的分析而言也许是最优的,但肯定不适合于大量数据的存储,因为多维数据库的数据冗余度很高。
为了提高速度,对数据集市中的数据一般都建立大量的索引。
换言之,数据集市中往往靠对数据的预处理来换取运行时的高速度,当业务部门提出新的问题时,如果不在原来设计的范围内,则需要数据库管理员对数据库作许多调整和优化处理。
业界有两种数据集市,即从属数据集市和独立数据集市。
前者的数据来源于中央的数据仓库,后者的数据则直接来源于源应用环境。
所有的从属数据集市都从属于同一个数据仓库,各子系统的数据均能保持一致,因此这种数据集市的结构是可行的。
而每个独立数据集市都从各源生产系统中单独提取数据,无法保证数据的一致性;从长远来看,这种结构是不稳定也是不可行的。
图1清楚地说明了两者在结构上的区别。
遗憾的是,独立数据集市的这些问题在开始往往反映不出来,企业只有在建立了多个独立数据集市之后才能认识到其缺点。
数据集市供应商们所大力宣传的其实正是这种独立数据集市,因此在本文的讨论中,我们所指的数据集市也是独立数据集市。
@@0489400.JPG;图1@@2. 什么是数据仓库数据仓库与数据集市之间具有很大的差异。
数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。
一般来讲,数据仓库是由一个中央的协调组织 (例如传统的IT部门)来建立和管理。
数据仓库完全是整个企业共同努力的结果。
某个部门的主题与企业的主题之间可能存在也可能不存在关联。
数据仓库中存储整个企业内非常详细的数据,相对而言,数据集市中数据的详细程度要低一些,相反,它包含了许多概要和累加数据。
数据仓库的数据模型一般是规范的,比较多的是符合第三范式。
其数据的结构和内容反映的不是某个特定部门的特殊要求,它代表的是整个企业对于数据的需求。
数据仓库中的数据量与数据集市差别很大,因此,数据仓库中的索引很少。
这和传统的OLTP数据库有很大的区别。
数据仓库中包含有相对稳定的历史数据,所有数据都是从许多操作数据源中经一定的业务规则转换并集中进来的。
简而言之,在数据仓库与数据集市中,无论是数据的结构还是其内容都存在着显著的差别。
图2形象地说明了这种区别。
左边的数据集市是星形连接结构,而右边的数据仓库是正则结构,各实体之间通过外键(Foreign Key)连接。
@@0489401.JPG;图2@@由于数据仓库中的数据是详细的、集成的和历史的,其中的数据量一般都很大,而且随着时间的推移,增长速度也非常快。
因此,建立数据仓库最好是分步进行,否则建设周期将非常长。
即使从最早的文献来看,学术界就几乎公认建立数据仓库必须使最终用户能尽快看到具体、明确的结果。
直到现在,有关的专栏作者和咨询顾问们还是一致认为数据仓库的建设速度必须很快,尽量避免冗长、庞大的投资行为。
当然,这并不意味着数据仓库的投资小,正确的理解是,数据仓库一般是从小处着手, 取得一定成效后再逐步完善。
世界上许多成功的1000GB (指用户数据量而非数据库大小)级以上的数据仓库在开始时的规模都不大,这就是所谓的"全盘考虑,逐步完善"的思想。
图3给出了建立数据仓库的正确途径。
从图中可以看出,数据仓库的建设是分步进行的,每步都能取得阶段性的成果,不需要等到二、三年后才能访问数据仓库中的信息。
@@0489402.JPG;图3@@目前,数据集市的理论是,先建立一个或多个数据集市,然后把它们集成起来,当它们增长到一定规模时就变成了数据仓库。
遗憾的是,这种理论在很多方面都站不住脚:1) 数据集市是设计用来满足部门需求的,各部门的目标可能差别很大,这也是为什么企业内各部门拥有结构和特征都不同的数据集市的原因。
数据仓库则是设计用来满足企业综合需求的。
一个设计方案可以是对一个特定部门最优的,也可以是对一个企业最优的,但不可能对两者均是最优方案。
针对企业的设计目标和针对部门的差别很大。
2) 数据集市与数据仓库中数据的详细程度也完全不同。
数据集市中包含有许多概要和累计数据,而数据仓库中则包含有大量的详细数据。
显然,你可以从详细数据中计算出概要和累加数据,但反之则不行。
对业务分析而言,详细数据在很多场合都非常重要。
综上所述,我们可以归纳出以下要点:·数据集市和数据仓库中的数据模型不同,前者一般采用星形连接结构,后者则用第三范式为主;·数据集市中的历史数据信息量比数据仓库少很多;·数据集市中的主题和数据仓库中的主题关联并不很多;·数据集市中的关系与数据仓库中的关系不同;·数据集市中的查询类型与数据仓库中的查询类型差别很大;·数据集市中的用户类型 (较低层次)和数据仓库中的用户类型 (较高层次)差别很大;·数据集市的主要结构与数据仓库的主要结构具有显著的区别。
小结数据集市与数据仓库应用环境的差别很大,如果认为一个数据集市在增长到一定程度时能转换成数据仓库,那无异于说小草可以长成橡树。
虽然这两种绿色植物在生长的某个阶段具有一些相同的特征,但这并不能遮盖两者的区别。
这毕竟是现实世界,数据集市与数据仓库的道理是一样的。