数据仓库和数据集市的异同

合集下载

数据仓库和数据集市的区别

数据仓库和数据集市的区别

数据仓库和数据集市的区别数据仓库与数据集市看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:(1) 基本概念(2) 为什么提出数据集市(3) 数据仓库设计方法论(4) 数据集市和数据仓库的区别(5) 仓库建模与集市建模(6) 案例分析:电信CRM数据仓库Bill Inmon说过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是十分重要而迫切的!通常在考虑建立数据仓库之前,会涉及到如下一些问题:(1) 采取自上而下还是自下而上的设计方法(2) 企业范围还是部门范围(3) 先建立数据仓库还是数据集市(4) 建立领航系统还是直接实施(5) 数据集市是否相互独立一、基本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W. H. Inmon 在其著作《Buildingthe Data Warehouse》一书中给予如下描述:数据仓库(Data Warehouse) 是一个面向主题的(SubjectOri2ented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( TimeVariant) 的数据集合用于支持管理决策。

对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

为最大限度地实现灵活性,集成的数据仓库的数据应该存储在标准RDBMS 中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。

这种类型的数据仓库设计被称为原子数据仓库。

原子数据仓库的子集,又称为数据集市。

大数据:数据仓库和数据集市的比较

大数据:数据仓库和数据集市的比较

大数据:数据仓库和数据集市的比较随着科技的发展,数据成为了当下最热门的话题之一。

随着互联网的普及和各行各业的信息化建设与发展,数据规模与数据类型也日益增加。

面对如此巨大的数据量,如何正确地处理和分析数据,如何从中发现有价值的信息,也日益成为了各个企业必须面对的挑战。

在处理这些大数据时,数据仓库和数据集市是两种常见的数据存储和分析方式。

本文将详细比较数据仓库和数据集市的优缺点。

一、数据仓库数据仓库是指将企业内部不同系统中的数据进行收集和汇总,形成一个一致且具有高性能的数据存储库,并且保证数据的一致性、可更新性和可查询性。

数据仓库的主要特点:1、定期批量更新数据:数据仓库通常会对企业内部的数据进行定期批量的更新,而且一般是在业务量相对较小时进行。

2、面向历史:数据仓库主要面向数据的历史信息,针对的是过去的数据。

3、专注于查询:在数据仓库中,主要对数据进行查询操作。

4、主题导向:数据仓库是围绕着业务主题进行组织的,它包含了企业整个业务的各个方面。

数据仓库的优点:1、高效性:基于数据仓库的数据分析拥有更高的业务性能,用于大量数据处理时更加简单、高效。

2、数据一致性好:由于数据仓库的数据集中存储,因此能够保证数据的一致性。

3、适用于大型企业:数据仓库的搭建需要较高的成本,会考虑到企业经营的全局信息。

数据仓库的缺点:1、对实时更新的需求差:数据仓库的数据一般是较为静态的,更新时延相对较高。

2、对数据的一致性要求高:数据仓库在数据插入、更新、删除等操作上的成本相对更高,因此数据的一致性也更加重视。

3、可变性不强:数据仓库在建库时便需要考虑到全局信息,所以数据的构建相对比较稳定。

二、数据集市数据集市是指将企业内部不同系统中的数据进行收集,然后根据需要进行分类、整合、清洗、分析等操作,组成具有相同语义的业务数据集合,提供给业务部门,以支持各个业务部门的分析需求和决策需要。

数据集市的主要特点:1、实时更新:数据集市需要及时更新数据,这样业务部门才能随时获取到最新的数据信息。

数据仓库与数据集市的区别与选择

数据仓库与数据集市的区别与选择

数据仓库与数据集市的区别与选择随着信息技术的发展和数据量的快速增长,企业对数据的需求也越来越高。

为了更好地利用和管理企业的数据资产,数据仓库和数据集市成为了常用的解决方案。

本文将探讨数据仓库与数据集市的区别,并给出在不同场景下的选择建议。

一、数据仓库的定义与特点数据仓库是指将企业各个业务系统产生的数据进行整合、清洗和转换,形成一个统一、集中、一致的数据存储空间。

数据仓库通常采取面向主题的建模方式,将业务数据按照主题进行组织,例如按照销售、客户、产品等主题进行存储。

数据仓库的特点包括:1. 面向主题:数据仓库关注企业的关键主题,将数据按照主题进行组织。

2. 集成的:数据仓库整合来自不同业务系统的数据,形成一张全面的数据模型。

3. 非易失的:数据仓库中的数据一般是只读的,不可修改,保证了数据的一致性和稳定性。

4. 历史的:数据仓库中保存了历史数据,可以进行时间序列分析和趋势预测。

二、数据集市的定义与特点数据集市是面向具体业务需求的数据存储和处理环境,它是数据仓库的一种延伸和扩展。

不同于数据仓库的集中式架构,数据集市通常采用分散式的架构,根据业务需求构建多个独立的数据集市。

数据集市的特点包括:1. 面向业务需求:数据集市根据不同的业务需求构建,可以为不同的部门和角色提供定制化的数据视图。

2. 高度灵活:数据集市采用分散式架构,每个集市可以独立定义数据模型和数据存储方式,实现灵活性和快速响应业务变化的能力。

3. 实时性需求:某些业务场景下,对于数据的实时性要求较高,数据集市可以针对这些需求提供实时数据。

4. 可扩展性:数据集市可以根据业务扩展的需要,灵活添加或删除数据集市,以适应业务的发展和变化。

三、数据仓库与数据集市的区别1. 架构设计:数据仓库采用集中式的架构,将各个业务系统的数据整合到一个统一的存储空间中;而数据集市采用分散式的架构,根据业务需求构建多个独立的数据集市。

2. 数据模型:数据仓库通常采用面向主题的数据建模方式,按照主题进行数据整合和存储;而数据集市根据具体的业务需求,可以采用不同的数据模型,如关系型模型、多维模型等。

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS

详解数据仓库和数据集市:ODS、DW、DWD、DWM、DWS、ADS01数据流向02应用示例03何为数仓DWData warehouse(可简写为DW或者DWH)数据仓库,是在数据库已经大量存在的情况下,它是一整套包括了etl、调度、建模在内的完整的理论体系。

数据仓库的方案建设的目的,是为前端查询和分析作为基础,主要应用于OLAP(on-line Analytical Processing),支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

目前行业比较流行的有:AWS Redshift,Greenplum,Hive等。

数据仓库并不是数据的最终目的地,而是为数据最终的目的地做好准备,这些准备包含:清洗、转义、分类、重组、合并、拆分、统计等主要特点•面向主题▪操作型数据库组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。

▪主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通过与多个操作型信息系统相关。

•集成▪需要对源数据进行加工与融合,统一与综合▪在加工的过程中必须消除源数据的不一致性,以保证数据仓库内的信息时关于整个企业的一致的全局信息。

(关联关系)•不可修改▪DW中的数据并不是最新的,而是来源于其他数据源▪数据仓库主要是为决策分析提供数据,涉及的操作主要是数据的查询•与时间相关▪处于决策的需要数据仓库中的数据都需要标明时间属性与数据库的对比•DW:专门为数据分析设计的,涉及读取大量数据以了解数据之间的关系和趋势•数据库:用于捕获和存储数据04为何要分层数据仓库中涉及到的问题:1.为什么要做数据仓库?2.为什么要做数据质量管理?3.为什么要做元数据管理?4.数仓分层中每个层的作用是什么?5.…...在实际的工作中,我们都希望自己的数据能够有顺序地流转,设计者和使用者能够清晰地知道数据的整个声明周期,比如下面左图。

但是,实际情况下,我们所面临的数据状况很有可能是复杂性高、且层级混乱的,我们可能会做出一套表依赖结构混乱,且出现循环依赖的数据体系,比如下面的右图。

《商务智能》考试复习内容-(含答案)

《商务智能》考试复习内容-(含答案)

闭卷考试,时间120分钟,五种题型:选择题(10分)、判断题(10分)、名词解释题(30分)、简答题(30分)、论述题(20分)第1章商务智能基本知识(1)商务智能的概念、价值、驱动力。

概念:商务智能是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力-王茁专著《三位一体的商务智能》. IBM商务智能解决方案远远不只是数据和技术的组合,BI帮助用户获得正确的数据,发现它的价值,并共享价值.价值:To support decision making at all levels of business management based on the facts and (scientific)predictions of current and future business situations that are obtained from intelligent analysis of historical business data。

支持各级决策基于事实和商业管理的(科学)的预测当前和未来的业务情况下获得历史业务数据的智能分析。

Business decisions made with BI support are more—Correct 恰当—Accurate 准确-Objective 客观-Timely 及时驱动力:在商务智能背后有一些商业驱动力,例如:增加收入,减少费用和更有效地竞争的需求。

管理和模拟当前商业环境复杂性的需求。

减少IT费用和利用已有公司业务信息的需求。

(2)商务智能系统的功能、主要工具.功能:在商务智能背后有一些商业驱动力,例如:增加收入,减少费用和更有效地竞争的需求。

管理和模拟当前商业环境复杂性的需求。

减少IT费用和利用已有公司业务信息的需求.主要工具:第2章商务智能核心技术(1)商务智能系统的架构如何?(2)什么是数据仓库?数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一用户接口,完成数据查询和分析。

数据仓库-数据集市-BI-数据分析-介绍

数据仓库-数据集市-BI-数据分析-介绍

数据仓库-数据集市-BI-数据分析-介绍数据仓库数据集市BI数据分析介绍在当今数字化的时代,数据已经成为企业和组织最宝贵的资产之一。

如何有效地管理、分析和利用这些数据,以获取有价值的信息和洞察,成为了摆在众多企业面前的重要课题。

在这个过程中,数据仓库、数据集市、商业智能(BI)和数据分析等技术和概念发挥着至关重要的作用。

接下来,让我们一起深入了解一下这些概念。

数据仓库,简单来说,就是一个用于存储和管理企业数据的大型数据库系统。

它的目的是将来自不同数据源(如操作系统、数据库、文件等)的数据整合到一个统一的、一致的环境中,以便进行分析和决策支持。

数据仓库中的数据通常是经过清洗、转换和集成的,以确保数据的质量和一致性。

它采用了特定的架构和技术,如星型模式、雪花模式等,来优化数据的存储和查询性能。

数据仓库就像是一个大型的数据仓库,将各种各样的数据收集起来,经过整理和分类,以便后续的使用。

与数据仓库密切相关的是数据集市。

数据集市可以看作是数据仓库的一个子集,它专注于特定的业务领域或主题,例如销售数据集市、客户数据集市等。

数据集市的数据来源于数据仓库,经过进一步的筛选和加工,以满足特定业务部门或用户的需求。

数据集市的规模通常比数据仓库小,但更具针对性和灵活性,能够更快地提供相关的数据和分析结果。

接下来,我们谈谈商业智能(BI)。

BI 是一套用于将数据转化为有价值的信息和知识的技术和工具。

它包括数据报表、数据可视化、数据挖掘、联机分析处理(OLAP)等功能。

通过 BI 系统,用户可以以直观的方式查看和分析数据,从而发现数据中的趋势、模式和关系。

BI 帮助企业管理层做出更明智的决策,提高企业的竞争力和运营效率。

例如,通过数据报表,管理层可以清晰地了解企业的销售业绩、成本支出等情况;通过数据可视化,复杂的数据可以以图表、地图等形式展现,更容易理解和分析。

数据分析则是一个更广泛的概念,它涵盖了从数据收集、数据处理、数据分析到结果解释和报告的整个过程。

操作数据存储ODS和数据集市详解

操作数据存储ODS和数据集市详解
ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结 构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽 取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接 口、数据量大小、抽取方式等方面的问题。
转移一部分业务系统细节查询的功能
在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的, 在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大 的压力。
实际中往往会有实时决策的需求,上述两者都不能满足要求, 因此产生了ODS
ODS数据环境:一方面提供全局一致的、细节的、当前的数据, 可进行联机事务操作型处理。另一方面是一种面向主题的集成 的数据环境。数据量小,可辅助完成日常决策的数据分析处理,
同时可以保护投资,保留现有的应用系统。
1 ODS的定义和特点
另一方面,在DB-ODS-DW三层结构中,中间件也是 将ODS中的信息与DW系统中的信息相关联的一条途径。
3 建立ODS
3.2 ODS系统设计
物理实现
定义每个主题的数据抽取周期、抽取时间、抽取方式、 数据接口,抽取流程和规则。
物理设计不仅仅是ODS部分的数据库物理实现,设计数 据库参数、操作系统参数、数据存储设计之外,有关数 据抽取接口等问题必须清晰定义。
Data Mart
RDBMS
Metadata Exchange
Local Metadata
Local Metadata
Data Mart
RDBMS
MidTier
OLTP Tools
MidTier
MDB
End-User DW Tools
Source Hub - Data Extraction, Central Data Ware-

数据仓库和数据集市的概念、区别与联系

数据仓库和数据集市的概念、区别与联系

数据仓库和数据集市的概念、区别与联系1.为什么会出现数据仓库和数据集市?“数据仓库”的概念可以追溯到80 年代中期。

从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。

在缺乏“数据仓库”体系结构的情况下,早期的决策支持环境如图1 所示。

企业内部存在许多冗余的、重复建设的决策支持系统(通常是报表系统),这些系统被不同类型的用户使用,数据的抽取层次复杂,最初在OLTP 上抽取,再在抽取后的数据集上抽取,如此等等,呈“蜘蛛网”状,由于没有公共的数据源,并且数据没有时间点,导致了产生的报表可信度下降,数据不一致问题特别显著,更不用说转化为有效的决策信息。

为了解决上述问题,数据仓库应运而生。

数据仓库构建了一种以集中式的数据存储为核心的体系结构,数据存储的模式为了适应决策分析的要求,形成了一种与原来业务系统构成的操作型环境(OLTP)相独立的决策支持环境。

数据仓库最基本的体系结构如图2 所示。

图2 所示的以数据仓库为基础的决策支持环境,要求数据仓库能够满足所有最终用户的需求。

然而,最终用户的需求是不断变化的,而且各种类型的用户对信息的需求也不一样,这就要求数据仓库存储的数据具有充分的灵活性,能够适应各类用户的查询和分析。

另一方面,最终用户对信息的需求必须易于访问,能够在较高的性能上获得结果。

但是,灵活性和性能对数据仓库而言,是一对矛盾体。

为了适应灵活性的要求,数据仓库需要存储各种历史数据,以规范化的模式存储(一般是第3范式)。

于是,对于特定的用户,TA所需要的信息就需要在许多张很大的表上连接后得到结果,这样就无法满足用户对快速访问的性能需求。

为了解决灵活性和性能之间的矛盾,数据仓库体系结构中增加了数据集市,数据集市存储为特定用户需求而预先计算好的数据,从而满足用户对性能的需求。

带有数据集市的体系结构如图3 所示。

上文提及数据仓库除了为数据流构建体系结构模型外,还尝试解决与数据流相关的各种问题,这些问题如图4 所示,包括数据仓库构建过程中需要开展的各种任务及特点。

数据仓库数据集市概念区别

数据仓库数据集市概念区别

数据仓库数据集市概念区别数据集市≠数据仓库NCR公司可扩展数据仓库解决⽅案⼩组王闯⾈编译我们知道,决策⽀持系统(DSS)主要有两种实现⽅式,即建⽴⼀个数据集市或者⼀个数据仓库。

到底哪⼀种更能满⾜决策⽀持的要求并且适合企业今后的发展,是近两年来学术界和有关供应商激烈争论的⼀个话题。

在数据集市领域,主要的供应商和拥护者以美国红砖(Red Brick)公司为代表,其总裁Ralph Kimball在1997年12⽉的⼀篇论⽂中提出,"数据仓库只不过是⼀些数据集市的集合⽽已"。

认为企业多建⽴⼀些数据集市,将来⾃然就形成了数据仓库。

⽽业界公认的数据仓库之⽗ Bill Inmon在今年1⽉⽴即撰⽂反驳,旗帜鲜明地指出,"你可以在⼤海中捕到很多的⼩鱼并堆积起来,但它们仍然不是鲸"。

在5⽉份的《数据管理综述》(DataManage ment Review)中,Bill Inmon⼜发表了"数据集市不等于数据仓库"的论⽂,进⼀步阐述两者在本质上的区别以及各⾃的适⽤场合,本⽂就是根据这篇论⽂的主要内容编译⽽成的。

问题的提出现在,各企业IT部门的经理所⾯临的最主要问题之⼀是先建⽴数据仓库还是先建⽴数据集市。

长期以来,数据集市供应商们不断地给他们灌输这样的观念,即建⽴数据仓库⽐较复杂,投资过⼤,设计与开发周期太长,难以集成和管理企业范围内的各种源数据;并认为,基于数据仓库的DSS投资⽅案难以得到企业管理层的批准。

数据集市供应商们给业界描绘了⼀幅数据仓库前景暗淡的图画,这完全是出于⾃⾝的⽬的,是不正确的。

数据集市供应商们把数据仓库当成其增加营业收⼊的绊脚⽯,⾃然要避开和攻击数据仓库。

事实上,他们在销售时强调数据集市的建设周期短,是以企业信息系统结构的长期规划为代价的。

持数据集市主张的⼈认为,决策⽀持系统的成功实现,除了数据仓库以外,还有更简便、更有效的其它途径。

⽅法之⼀就是建⽴多个数据集市,当它们增加得⾜够⼤时,那就是所谓的数据仓库了。

产品经理-10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

产品经理-10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)作为一名数据小白,在日常讲授和杂务工作中经常会接触到数据。

随着用户数据与金融业务数据的不断累加,数据管理与处理愈发重要。

本篇文章中,无名氏将一文说明数据库、数据仓库、数据湖、数据中台的区别与联系。

作为数据相关的产品小白,在日常学习工作中经常能或者听到大家在讨论数据库,数据仓库,数据集市,数据库数据湖还有最近比较火的数据中台,似乎这些名词都与数据存在着联系,查阅各类相关书籍,大部分书籍中的内容过于专业晦涩难懂。

那么这结合我积累的相关方面知识,向大家介绍一下上述这些名词的与联系,以及在各类企业及业务范围上的适用范围,如有不准确的地方,希望大家进行指正。

相信大部分有些许技术背景的都对数据库有一定的了解,数据库是“按照数据结构来组织、存储和管理数据的仓库”,一般分为“关系型数据库”与“非关系型数据库”。

1.关系型数据库实际上回顾过去的数据库一共有三种模型,即层次模型,网状模型,关系模型。

(1)首先层次模型的数据结构为树状结构,即是一种上下级的社团组织层级关系组织数据的一种方式:(2)带状模型的数据结构为网状网状结构,即将每个数据节点与其他很多节点都连接起来:(3)关系模型的数据结构可以看做是一个二维表格,任何数据都可以通过行号与列号来唯一确定:由于相比于层次模型和网状模型,关系模型理解和使用最简单,最终基于关系型最后数据库在各行各业应用了起来。

关系模型的数学方法第一卷涉及到关系,元组,属性,笛卡尔积,域等等令人头秃的高等数学术语,这里大家如果感兴趣可以看看相关的文献,我就不放出来催眠大家了,尽管数学原理比较复杂,但如果用事务平时学习工作的具体事务举例,就相对容易理解。

我们以某公司的员工信息表为例,该公司的员工信息可以用一个表格存起来。

并且定义如下:同时部门ID对应这另一个职能部门表:我们可以通过给定一个政府部门部门名称,查到一条部门的记录,根据部门ID,又可以记述查到该部门下的员工记录,这样三维的表格就通过ID映射建立了“一对多”的关系。

数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别

数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别

数据存储与管理18数据库数据仓库数据中台数据湖数据集市的区别数据仓库vs.数据集市数据集市和数据仓库经常会被混淆,但两者的用途明显不同。

数据集市通常是数据仓库的子集;它等数据通常来自数据仓库– 尽管还可以来自其他来源。

数据集市的数据专门针对特定的用户社区(例如销售团队),以便他们能够快速找到所需的数据。

通常,数据保存在那里用于特定用途,例如财务分析。

数据集市也比数据仓库小得多– 它们可以容纳数十千兆字节,相比之下,数据仓库可以存储数百千兆字节到PB级数据,并可用于数据处理。

数据集市可从现有数据仓库或其他数据源系统构建,你只需设计和构建数据库表,使用相关数据填充数据库表并决定谁可以访问数据集即可。

数据仓库vs.ODS操作数据存储(ODS)是一种数据库,用作所有原始数据的临时存储区域,这些数据即将进入数据仓库进行数据处理。

我们可以将其想象成仓库装卸码头,货物在此处交付、检查和验证。

在ODS中,数据在进入仓库前可以被清理、检查(因为冗余目的),也可检查是否符合业务规则。

在ODS中,我们可以对数据进行查询,但是数据是临时的,因此它仅提供简单信息查询,例如正在进行的客户订单状态。

ODS通常运行在关系数据库管理系统(RDBMS)或Hadoop平台。

关系型数据库vs.数据仓库和数据湖数据仓库、数据湖与关系数据库系统之间的主要区别在于:关系数据库用于存储和整理来自单个来源(例如事务系统)的结构化数据,而数据仓库则用于存储来自多个来源的结构化数据。

数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。

关系数据库创建起来相对简单,可用于存储和整理实时数据,例如交易数据等。

关系数据库的缺点是它们不支持非结构化数据库数据或现在不断生成的大量数据。

这使得我们只能在数据仓库与数据湖间做出选择。

尽管如此,很多企业仍然继续依赖关系数据库来完成运营数据分析或趋势分析等任务。

内部或云端可用的关系数据库包括Microsoft SQL Server、Oracle数据库、MySQL和IBM Db2、以及Amazon Relational Database Service、Google Cloud Spanner等。

数据仓库与数据挖掘考试习题汇总 3

数据仓库与数据挖掘考试习题汇总 3

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库.8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储.9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。

因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。

静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。

粒度越小,细节程度越高,综合程度越低,回答查询的种类越多.5、使用星型模式可以从一定程度上提高查询效率。

数据仓库中ODS、DW与DM之间关系

数据仓库中ODS、DW与DM之间关系

数据仓库中ODS、DW与DM之间关系在数据仓库架构中ODS(操作数据存储)、DW(数据仓库)和DM(数据集市)是不同的层次。

它们之间有明显的区别,并且相互协作来支持数据管理和分析,具体详见下图:接下来分别对ODS、DW和DM进行详细介绍。

ODS介绍ODS是操作性数据(Operational Data Store) 简称:操作性数据存储。

ODS是数据仓库中的一个中间层,它主要用于将源系统的数据进行整合和转换,但并不进行复杂的分析或聚合。

ODS 旨在保留源系统数据的完整性,支持实时或接近实时的数据访问和操作。

它通常包含原始数据和经过简单处理的数据。

特征如下:●ODS直接存放从业务抽取过来的数据,这些数据从结构和数据上与业务系统保持一致,降低了数据抽取的复杂性。

●转移一部分业务系统的细节查询功能,因为ODS存放的数据与业务系统相同,原来有业务系统产生的报表,现在可以从ODS中产生。

●完成数据仓库中不能完成的功能,ODS存放的是明细数据,数据仓库DW或数据集市DM都存放的是汇聚数据,ODS提供查询明细的功能。

●ODS数据只能增加不能修改,而且数据都是业务系统原样拷贝,所以可能存在数据冲突的可能,解决办法是为每一条数据增加一个时间版本来区分相同的数据。

DW介绍DW是数据仓库(Data Warehouse)的简称:DW是一个经过专门处理和优化的数据存储区域,用于支持复杂的分析、查询和报告。

DW采用了不同的数据模型(如星型模型或雪花模型)和聚合技术,以提供快速的决策支持和报表功能。

DW具有历史数据存储、集成和标准化数据等特点,可以满足企业级的数据分析需求。

特征如下:●效率足够高,要对进入的数据快速处理。

●数据质量高,数据仓库是提供很多决策需要的数据支撑,DW的数据应该是唯一的具有权威性的数据,企业的所有系统只能从DW取数据,所以需要定期对DW里面的数据进行质量审,保证DW里边数据的唯一、权威、准确性。

●扩展性,企业业务扩展和降低企业建设数据仓库的成本考虑●面向主题,数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。

数据仓库与数据集市

数据仓库与数据集市
维普资讯
科技情报开发与经济
文章 编 号 :0 5 6 3 (0 7 1— 17 0 10 — 0 32 0 )0 0 8 — 3
S IT C F R A ND V L P E T&E O O Y C—E HI O M  ̄O E E O M N N C NM
O i t )集成 的(n g t 、 rnd、 ee I e a ) 与时间相关 的( i e ai t 、 tre Tm r n )但信息 本身 V a
又相对稳定 的( o — oai ) N n V l l 数据集合 。与其他数据库应 用不 同的是 。 te 数
修改 。 根据数据仓库概念的含义 , 数据仓库拥有以下 4 个特点 : ( ) 向主题的。 1丽 操作型数据 库的数据组织丽向事务处理任务 。 各个 业务系统之间各 自分离 , 而数据仓库中的数据按照一定的主题域进行组
织。
据仓库更像一种过 程 。 是对分布在企业 内部各处 业务数据 的整合 、 加工
和分析的过程 , 而不是一种可以购买的产 品。
数据集 市可称作“ 小数据仓库” 是用来分析相关专门业务问题或功 , 能目 标而做 的专项数据集合。 它建立在具有统一数据存储模型的数据仓
库下 ,各级业务人员按照各部门特定的需求 把数据进行复制 、处 理、 加
库 和 数 据 集 市 的 概 念 入 手 , 绍 了数 据 仓 库 和数 据 集 市 的 特 点 、 系结 构 、 件 、 价 介 体 构 评
指 标 及其 应 用 。
关键 词 : 据仓 库 ; 数 数据 集 市 ; 分析 方 法 中 图分 类 号 :P l,3 T31 1 文 献标 识 码 : A
要 容易地访问多个主题时 , 应该创建以数据仓库为来源的数据集 市。 R p i bl说“ l K r l 数据仓库 仅仅是构成它的数据集 市的联合 ” 他认 a h na 。 为“ 可以通过一系列维数相同的数据集市递增地构建数据仓库” 通过使 , 用“ 一致的” , 够共同看到不 同数据集 市中的信息 , 维 能 这表示 它们拥有 公共定义的元 素。Kib l ma l的方法将提供集成 的数据来 回答组织 迫切的

数据集市DataMart

数据集市DataMart

数据集市DataMart数据集市数据集市(Data Mart),也叫数据市场,为满⾜特定的部门或者⽤户需求,按照多维的⽅式进⾏存储,包括定义维度、需要计算的指标、维度的层次等,⽣成⾯向决策分析需求的数据⽴⽅体。

数据集市,迎合了专业⽤户群体的特殊需求,包括分析、内容、表现,以及易⽤性⽅⾯。

数据集市,是企业级数据仓库的⼀个⼦集,主要⾯向部门级业务,只⾯向某个特定的主题。

来源数据集市数据来源于企业范围的数据库、专业的数据仓库。

数据仓库与数据集市的区别指标数据仓库数据集市数据来源遗留系统、外部数据数据仓库范围企业级部门级或⼯作组级主题企业主题部门或特殊的分析主题数据粒度最细的粒度较粗的粒度数据结构规范化结构、星型模型、雪花模型星型模型、雪花模型历史数据⼤量的历史数据适度的历史数据优化处理海量数据/数据探索便于访问和分析/快速查询索引⾼度索引⾼度索引特征规模⼩特定的应⽤⾯向部门由业务部门定义、设计和开发业务部门管理和维护快速实现购买较便宜投资快速回收⼯具集的紧密集成提供更详细的、预先存在的、数据仓库的摘要⼦集可升级到完整的数据仓库数据结构通常为星型结构或雪花结构。

⼀个星型结构包括:事实表和维表。

事实表事实表描述数据集市中最密集的数据。

例如,呼叫中⼼的呼叫数据;银⾏中⾃动柜员机的数据;零售业的销售数据、库存数据等;维表维有围绕着事实表建⽴,通过外键与事实表相连。

数据集市类型独⽴型独⽴型数据集市的数据来⾃于操作型数据库,是为了满⾜特殊⽤户⽽建⽴的⼀种分析型环境。

优点:开发周期较短⽐较灵活缺点:脱离数据仓库容易形成信息孤岛不能以全局的视⾓去分析数据从属型从属型数据集市的数据来⾃于企业的数据仓库。

优点:体系结构⽐独⽴型数据集市更稳定提⾼了数据分析的质量保证了数据⼀致性缺点:开发周期较长。

数据仓库数据集市BI数据分析介绍

数据仓库数据集市BI数据分析介绍
16
数据仓库数据建模步骤
一般按照主题进行建模 一般步骤
业务建模
领域建模
逻辑建模
物理建模
✓梳理组织架构关系
✓抽象业务概念
✓具化抽象概念的属性✓针对特定物理平台
✓梳理系统用户、角色
✓分组业务概念,按照业务主线 ✓细化业务流程
作出相应的技术调整
✓梳理业务流程(实际工作流程)聚合类似的分组的数据是不一样的,让管理者无所适从
报表的生产率问题:由于OLTP的单项系统导致数据的分散性和相同元素定
义不一致所致不可能把数据转换成信息
数据动态集成问题:不同的需求,要求将操作型环境和分析型环境相分离
历史数据问题:单项系统之间保留的历史数据时间范围不一致,无法满足
DSS分析的需要数据的综合问题:非细节数据、多种程度的综合 提升现有的信 息:
由于做了大量数据预处理, 查询性能很快。
只是依靠单纯的维度建模, 不能保证数据来源的一致 性和准确性
结论:一般在数据仓库底层使用范式建模,在数据集市层或多维数据库使用维度建模
数据应用-多维分析之切片、切块
数据应用-多维分析之钻取




60




按 时 间 维 向 下 钻 取
数据应用-多维分析之旋转
9
数据仓库领域另外一名重要的人物
比尔·恩门的对头 随着拉尔夫·金博尔(Ralph Kimball)博士出版了他的第
一本书“The DataWarehouse Toolkit”(《数据仓库工具 箱》),数据仓库行业就开始喧哗起来,恩门的“Building the Data Warehouse”主张建立数据仓库时采用自上而下 (DWDM)方式,以第3范式进行数据仓库模型设计,而他 生活上的好朋友Ralph Kimball在“The DataWarehouse Toolkit”则是主张自下而上(DMDW)的方式,力推数据集 市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推 出新的BI架构CIF(Corporation information factory),把 Kimball的数据集市包括了进来才算平息。

数据仓库和数据集市

数据仓库和数据集市

数据仓库和数据集市上海复旦德门软件有限公司 朱建秋 博士企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。

各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。

由于术语定义不统一,另外各个供应商销售策略不一样,往往会给企业带来很大的混淆。

最典型的问题是:到底是先上一个企业级的数据仓库呢?还是先上一个部门级的数据集市?本文试图说明这两个概念之间的区别和联系,以期对具体的数据仓库项目有所裨益。

1.为什么会出现数据仓库和数据集市?“数据仓库”的概念可以追溯到80年代中期。

从本质上讲,最初数据仓库是想为操作型系统到决策支持环境的数据流提供一种体系结构模型,并尝试解决和这些数据流相关的各种问题。

在缺乏“数据仓库”体系结构的情况下,早期的决策支持环境如图1所示。

企业内部存在许多冗余的、重复建设的决策支持系统(通常是报表系统),这些系统被不同类型的用户使用,数据的抽取层次复杂,最初在OLTP 上抽取,再在抽取后的数据集上抽取,如此等等,呈“蜘蛛网”状,由于没有公共的数据源,并且数据没有时间点,导致了产生的报表可信度下降,数据不一致问题特别显著,更不用说转化为有效的决策信息。

为了解决上述问题,数据仓库应运而生。

数据仓库构建了一种以集中式的数据存储为核心的体系结构,数据存储的模式为了适应决策分析的要求,从而形成一种与原来业务系统构OLTP数据源 复制的数据集 最终用户开发的报表环境图1:早期的决策支持系统图2:数据仓库体系结构成的操作型环境(OLTP )相独立的决策支持环境。

数据仓库最基本的体系结构如图2所示。

图2所示的以数据仓库为基础的决策支持环境,要求数据仓库能够满足所有最终用户的需求。

然而,最终用户的需求是不断变化的,而且各种类型的用户对信息的需求也不一样,这就要求数据仓库存储的数据具有充分的灵活性,能够适应各类用户的查询和分析。

另一方面,最终用户对信息的需求必须易于访问,能够在较高的性能上获得结果。

数据仓库与数据集市

数据仓库与数据集市

数据仓库与数据集市随着互联网的迅猛发展,数据已经成为当今社会最重要的资产之一。

随着数据规模的增长和数据源的多样化,为商业决策提供大量数据的需求也变得越来越迫切。

为了满足这种需求,数据仓库和数据集市应运而生。

一、什么是数据仓库?数据仓库(Data Warehouse)是一个集成的、主题导向的、时态稳定的、面向主题的数据集合,用于支持企业的决策分析活动。

数据仓库将来自不同数据源的数据进行抽取、转换和加载,通常也会进行清洗和整合处理,并将结果存储在一个统一的数据库中。

数据仓库的特点包括:以主题为导向、集成多个数据源、清洗和整合数据、稳定的时态、面向用户等。

这些特点使得数据仓库成为企业管理决策的重要工具。

二、什么是数据集市?数据集市(Data Mart)是一个针对特定部门或业务领域的数据仓库,用于支持更具体的决策分析活动。

数据集市通常包含从企业数据仓库中选取的特定数据和数据源。

因此,数据集市通常更加小型化、专业化和快速。

相对于数据仓库而言,数据集市更加轻量化、灵活性更强,更适合于快速响应业务的变化。

数据集市的建设目标是更精确地满足用户的需求,比如在销售部门所需的销售数据分析等。

三、数据仓库和数据集市的优势1. 整合多个数据源:数据仓库和数据集市可以将来自不同数据源的数据整合在一起,不仅可以提高数据的完整性,还可以提供更丰富的数据维度和数据关系,更好地支持决策分析。

2. 提高决策分析效率:数据仓库和数据集市具有较高的查询性能和数据预处理能力,可以有效地支持管理决策和运营决策,提高分析效率。

3. 准确性:由于数据仓库和数据集市将来自不同数据源的数据进行清洗、整合和转换处理,可以提高数据的准确性和一致性,避免数据冲突和重复。

4. 保证安全性:数据仓库和数据集市具有较高的管理能力和安全性能,可以确保数据的保密性、完整性和可用性,有效地防止数据安全威胁。

5. 支持大数据分析:数据仓库和数据集市可以处理大规模数据的查询和分析,可以有效地支持大数据分析。

数据仓库和数据集市的区别

数据仓库和数据集市的区别

数据仓库和数据集市的区别
见过很多⼈搞不清楚数据仓库和数据集市的区别,下⾯是我见过的最好的关于“什么是数据仓库”的回答:
“数据仓库是⼀种关系数据库模式,其中保存了来⾃⼀个或者多个源数据库的历史数据和元数据。

数据仓库的⽬的是便于将数据的报告和分析汇总到多个层次。


或者更简单点:
“⼀个存放企业各个领域的数据的单独且有组织的库。


典型的数据仓库有以下的⼀些特点:
~~涉及多个主题域
~~有⼗分详细的信息
~~集合来⾃不同数据源的数据
~~不⼀定使⽤维模型,但提供维模型
另⼀⽅⾯,数据集市(Data Mart)是数据仓库的⼀个访问层,⽤于从数据仓库抽取相关的数据给⽤户,数据集市是数据仓库的⼀个⼦集,通常⾯向特定的业务线或者团队(财政部门有他们⾃⼰的数据集市,市场部门有他们⾃⼰的数据集市,销售部门有他们⾃⼰的数据集市等等)。

根据Inmon学院对数据仓库的定义,⼀个独⽴的数据集市是更⼤的数据仓库的⼀个逻辑⼦集或物理⼦集,通常是相互独⽴的,因为数据模式和模型彼此之间不相同。

微软提出的Tabular模型则使得你可以直接从数据仓库抽取数据⽽⽆需从数据集市抽取数据。

所以,简单地说,我认为数据仓库包含多个主题域,数据集市仅仅是多个主题域中的⼀个。

劳顿管理信息系统习题集-第6章 商务智能基础

劳顿管理信息系统习题集-第6章 商务智能基础

第6章商务智能基础:数据库与信息管理单项选择题(一)1.以下哪一项最好地诠释了实体和属性的关系?A)“客户”这个实体有属性“产品”B)“客户”这个实体有属性“购买”C)“产品”这个实体有属性“购买”D)“产品”这个实体有属性“客户”E)“产品”这个实体有属性“客户”Answer: BDifficulty: Challenging2.以下哪一项不是传统文件环境的问题?A)数据不一致B)无法开发功能区域的专业应用程序.C)缺乏对临时需求的灵活性D)安全性差E)数据共享Answer: BDifficulty: Challenging3.描述特定数据库实体的特征或特性的被称之为A)字段B)元祖C)关键字段D)属性E)关系Answer: DDifficulty: Easy4.以下哪一项非数字型的数据记录与数据库最相似的?A)图书馆卡片目录B)现金出纳收据C)医务室发票D)表格里的销售总额列表E)项目大纲的截止时间安排Answer: ADifficulty: Moderate5.由________造成的难题使得企业试图进行客户关系管理、供应链管理或者从不同数据源整合成为企业信息系统的难度增大A)批量处理B)数据冗余C)数据独立性D)在线处理E)数据质量Answer: BDifficulty: Easy6.在多个数据文件中出现的相同数据被称为数据________A)冗余B)重复C)独立D)划分E)差异Answer: ADifficulty: Easy7.相关数据文件的相同属性有不同值也称为?A)数据冗余B)数据复制C)数据独立性D)数据差异E)数据不一致Answer: EDifficulty: Challenging8.以下哪一项是将一组字符组成一个词、一组文字或一个完整的数字?A)文件B)表格C)实体D)字段E)元祖Answer: DDifficulty: Easy9.传统文件系统无法及时响应意外信息需求,这一事实是传统文件系统的哪个问题?A)项目数据互相依赖B)灵活性低C)安全性差D)无法数据共享E)数据冗余Answer: BDifficulty: Moderate对错题(一)10.记录是描述某个实体的一种特征或特性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
而“自下而上”的做法,则是强调应用决定数据,有什么应用就获取什么数据。理想状况下,一项分析应用只需要刚刚好的数据。例如人力资源部门的数据集市,就不需要市场推广的数据,那么这些数据将不被纳入该集市中。很明显,这也是理想化的,因为需求是不断变化的,今天人力资源可能不需要市场推广数据,但是如果哪一天需要分析员工做市场推广的成本收益,恐怕就需要这些数据了。
数据集市的另一重要功用是分析应用。虽然目前已经规划出名目繁多的专题,诸如离网预警、竞争对手等,可要将它们在不同的地市用起来,问题就大了。专题的应用重在流程,和具体的组织结构要关联起来,但各个地市公司情况并不一样。比如有的地市市场部比较强势,在数据分析中占据领导地位,而有的地市则是IT支撑比较强势;有的地市会为某个专题设定相应的组织结构,有的则不重视,因为那个专题要解决的问题根本不是自己最关注的,更谈不上耗费宝贵的人力在它上面。
其实,这对移动公司来说,几乎可以算是一件很令人恼火的事情了!本来,建了几年的数据仓库,是要将数据集中起来,提供分析功能、辅助决策。可后来却发现,数据量太大不说,地市公司人员访问也不方便,甚至还绕开数据仓库,直接去生产系统里面取数据。此时,原来忽悠数据仓库的那批厂商集成商又上门,开始忽悠起数据集市了。三年前,他们说,“数据要集中,提供唯一的数据视图”,三年后,他们又讲,“数据要分布,便于用户的访问”。
如此理解比较简易,但是用这样的比喻来定义数据仓库和数据集市之间的区别却未免过于浅陋。比如数据仓库也可以被直接访问,而数据集市也提供存储,而且这样区分似乎就表明,数据仓库和集市必须都存在才能为最终用户所用。事实则并非如此。那么,这样看起来,它们的区别似乎仅在于规模大小不同了。但如此一来,又有问题了,比如多大才算大,多小才算小呢?这也得相对而言,譬如电信公司的数据集市恐怕就比一个玩具厂的数据仓库大出几千倍。
从字义上看, “仓库”可以想像成一所大房子,高高的货架,合理的出入路线,是一种集中存储货物的地方,一般顾客是不来参观访问的; 而说到“集市”,就容易联想到空旷的场地,川流不息,大小商户摆出摊子,卖衣物的、卖烧饼及卖艺的,是让顾客来消费的地方。具体来说,数据仓库仅仅是提供存储的,提供一种面向数据管理的服务,不面向最终分析用户;而数据集市是面向分析应用的,面向最终用户。
其实,换个角度来看的话,这两者之间的区别正是自上而下和自下而上辩论的产物,也就是Inmon和Kimball两派在产品应用中的具体体现。
理想的“自上而下”,即一个企业建立唯一的数据中心,就像一个数据的仓库,其中数据是经过整合、经过清洗、去掉脏数据的、标准的,能够提供统一的视图。要建立这样的数据仓库,并不从它需要支持那些应用入手,而是要从整个企业的环境入手,分析其中的概念,应该有什么样的数据,达成概念完整性。理想状况下,数据仓库建成以后,因为数据是标准的,没有太多冗余,数据质量得以保证。因此,报表、OLAP以及其他任何统计分析应用都可以从中获取需要的数据。然而,这仅仅是理想,多少有点形而上的做法,有些过于追求事物的本质。
数据集市的建设难题 从前几年电信行业的经营分析系统建设可以看出来:无论移动或是联通,都不会将经营分析系统称为是数据集市系统。可在一开始,这些系统恐怕都仅仅是服务于少数部门的。
几年前,中国移动开始在全国少数几个地市开始数据集市的试点,这才算真正有了个“数据集市”项目。之所以有这种项目,是因为经营分析系统不能满足地市公司分析的需要。当然,也不排除厂商、集成商在其中煽风点火的作用。
当然,在实际项目的建设过程中,谁都不会傻呵呵地完全按照绝对的自上而下或是自下而上的方法去做。
就国外成熟数据仓库厂商的理念而言,大多是以自上而下为主,采用Bill Inmon的方法,先建立一套完美的EDW(企业数据仓库),并且他们通常针对行业已经设计出抽象程度比较高的概念模型,可以根据实际环境生成逻辑模型和物理模型。在构建完美的数据仓库的时候,设计者会考虑最终有哪些应用,根据应用做取舍。一般来说,数据仓库是分阶段的,譬如第一阶段主要服务于市场部门作市场分析,那么,建设者就很可能“偷工减料”,像员工信息、财务数据反正也没人用,便舍弃它们。由此,一套完美的EDW真正落实下来,往往因为受到项目周期、人员经验所限,最终会变得面目全非。
与国外相反,国内集成商的做法大多是自下而上。其中一部分原因在于周期和人员的原因,老板要求尽快上线,客户要求尽快看到结果,而这个时候恰好就是Kimball方法的用武之地。建设者会针对应用快速建立数据仓库(注意,这里仍然叫做数据仓库,似乎大家也不ห้องสมุดไป่ตู้意叫做数据集市,可能那样显得有些小气吧)。实际上,如果比较采用两种不同理念完成的第一版本,我们会发现,这两种交付版本竟是如此相像。
那么,到底该怎么看这个问题呢?事实上,如果辨证地来看,如此两种看上去截然不同的言论也确实能找出一些“交集”。说集中,三年前有的省分公司已经达到BOSS系统的集中了;说分布,不是有逻辑和物理数据集市之分吗!所谓逻辑,就是在现有数据仓库中建立一些视图或表,专门给地市使用;而物理,就是将硬件、软件放到地市,让地市公司自己玩儿。总之,以前好不容易将数据从地市抽上来,如今经营分析系统里转了一圈,再还给他们,移动公司还真得仔细想想这是否值得。
BI领域始终存在着建设数据仓库还是建设数据集市、自上而下还是自下而上的争论,而在实际建设中,自然不会有人完全按照某种理念去做,比如在电信公司的数据集市建设中,地市公司的特殊情况与总部规范之间的博弈就成了一大难题。
自上而下 VS自下而上
刚进入BI领域的时候,感觉到处都在说、都在做“数据仓库”,而现在,很多地方又开始说建设“数据集市”了。只是,如何对数据仓库和数据集市两者做出一个明晰的区分,却始终是个问题。
不管移动或是联通,都是总部出规范。如今,移动新的经营分析规范、数据集市规范都已出台,这些规范都是挺大挺全,可并不完全适合所有的省分和地市公司。虽然让省分公司自己去搞经营分析系统、省分公司让地市公司自己做数据集市都存在难以控制的风险,但是,如果考虑到经营压力和急迫的分析需求,地方公司的意见无疑正在越发得到重视。
从实际建设情况来看,有的地市有钱,就建设独立的数据集市,有独立的硬件、软件;有的地市没钱,那就和其他差不多级别的地市联合起来,共用一个数据集市,建设所谓联合型数据集市。招都想绝了,以至于差不多都忘了数据集市究竟是干吗的了。而对于地市公司的员工来说,他们本来就不是对技术很熟悉的人,好容易学会了从BOSS系统里面用SQL统计点数,经营分析系统来了,于是重新学习从经分取数;如今,数据集市又开始建设了,新一轮学习当然是少不了的。在具体应用上,如果这个集市能够提取相应的数据当然好了,可就怕和经分一样,想提取数据,告之要等两个星期,那样,数据集市还是没有作用。
相关文档
最新文档