全面解读数据中台、数据仓库和数据湖
一文读懂BI、数据仓库、数据湖与数据中台(建议收藏)
数据中台最核心的是OneData体系。
这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,出于分析性报告和决策支持目的而创建。
数据中台是一个数据集成平台,它不仅仅是为数据分析挖掘而建,它更重要的功能是作为各个业务的数据源,为业务系统提供数据和计算服务。
数据中台的本质就是“数据仓库+数据服务中间件”。
中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
在二战时期,美军是以庞大的军队为单位作战;到了越战时,以营为单位作战;到了中东战斗的时候,以7人或者11人的极小班排去作战,这就是今天具备最强核心竞争力和打击能力的组织。
而美军之所以能灵活作战,敢放这么小的团队到前方,是因为有非常强的中台能力,这些能力包括战斗直升机、舰炮远程支援、战术导弹系统、战斗机支援体系等,这些能力能支持小团队快速做判断,并且引领整个炮火覆盖和定点清除。
而对比今天多变的市场竞争环境,企业也正在寻找像美军一样具备创新性、灵活性的中台能力。
今天我们就从以下几个方面来说说数据中台:1.数据中台产生的历史背景2.数据中台对企业有什么价值3.到底什么是数据中台4.数据中台与数据库、数据湖和BI有什么区别5.企业搭建数据中台需要注意什么6.企业如何使用数据中台一、数据中台产生的历史背景数据从软件诞生的那一天开始就存在,但是,数据并不是第一天就被存储和利用的。
在信息化时代,企业早期通过流程来进行生产和管理,流程是预先设计好的,然后在设计好的流程中产生了数据。
比如现在销售部门依赖于CRM(客户关系管理平台),售后部门主要看客服系统,市场营销部门关心微信平台,数据分析团队使用各类数据分析工具…在这个过程中,各个企业分别都在用不同的方式来尽可能的利用数据产生的价值。
关于数据仓库、数据湖、数据平台和数据中台的概念和区别
企业数字化转型或者信息化建设过程中,不可避免的都会产生大量的数据,而继ERP、MES与PDM等企业信息化三驾马车建设完成之后,迎面而来的就是数据治理,关于数字化、信息化的区别见数据化、信息化、数字化和智能化之间联系和区别解析(建设收藏),而数据治理的载体无非是数据仓库、数据湖与数据中台等内容,前几天我们发布了一篇关于辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)的文章,今天我们来看下几个概念的区别与联系:我们谈论数据中台之前,我们也听到过数据平台、数据仓库、数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别,下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。
数据仓库数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。
数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
数据仓库的作用主要体现在企业决策、分析、计划和响应以下几个方面:数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务在预警预测等方面应用有一定的限制。
数据湖数据湖(Data Lake)是Pentaho公司CTO James Dixon提出来一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。
数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。
在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。
下面的定义是维基百科所给出的“数据湖”定义。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数据仓库与数据湖的概念与应用
数据仓库与数据湖的概念与应用数据仓库和数据湖是两种不同的数据存储和管理方法,被广泛应用于数据分析和决策支持系统中。
本文将从概念、特点、应用场景等方面详细介绍数据仓库和数据湖的相关知识。
一、数据仓库的概念与特点1.数据仓库的概念数据仓库(Data Warehouse)是指将企业或组织内部各个数据源中的数据进行统一整合、清洗和存储,以支持数据分析和决策制定。
数据仓库一般采用主题导向的数据模型,将各个业务领域的数据集中存储在一个集中的数据库中。
2.数据仓库的特点(1)主题导向:数据仓库将数据按照主题进行组织和存储,以支持用户对某个具体问题或主题进行深入分析。
(2)集成性:数据仓库将来自不同数据源的数据进行整合,消除数据冗余和不一致性,提供一致的数据视图。
(3)稳定性和持久性:数据仓库的数据一般是静态的,不经常更新,以确保数据的稳定性和持久性。
(4)面向分析:数据仓库主要面向决策支持和数据分析,提供丰富多样的分析工具和查询接口,满足用户对数据进行多维度、多角度的分析需求。
二、数据湖的概念与特点1.数据湖的概念数据湖(Data Lake)是指将各种数据源中的原始数据以其原始格式存储在一个或多个存储系统中,提供给用户进行数据分析和探索。
数据湖不需要提前进行数据整理和模式定义,可以容纳各种类型和结构的数据。
2.数据湖的特点(1)原始性:数据湖存储的数据是原始的,未经过清洗和整理,保留了数据源的完整性和灵活性。
(2)灵活性:数据湖可以容纳各种类型和结构的数据,不限制数据的组织方式和格式。
(3)可扩展性:数据湖可以方便地扩展存储容量,支持大数据规模的存储。
(4)即席查询:数据湖提供了即席查询和自助式数据分析的能力,用户可以根据需要直接访问和分析原始数据。
三、数据仓库与数据湖的应用场景1.数据仓库的应用场景(1)企业决策支持:数据仓库为企业决策者提供了可靠、一致、多角度的数据视图,支持企业决策制定和业务优化。
(2)业务分析与报表:数据仓库可以为企业提供各种精细化的业务分析和报表功能,帮助企业监测业务指标和趋势变化。
数据库、数据仓库、大数据平台、数据中台、数据湖对比分析
数据库、数据仓库、大数据平台、数据中台、数据湖对比分析一、概况层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。
本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:•数据▪什么是大数据▪数据分析与数据挖掘的区别是什么•数据库▪什么是数据库▪数据库中的分布式事务理论•数据仓库▪什么是数据仓库▪什么是数据集市▪数据库与数据仓库的区别是什么•大数据平台▪什么是大数据平台▪什么是大数据开发平台•数据中台▪什么是数据中台▪数据仓库与数据中台的区别与联系•数据湖▪什么是数据湖▪数据仓库与数据湖有什么区别与联系希望本文对你有所帮助,烦请读者诸君分享、点赞、转发。
二、数据什么是大数据?麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增长的时代,业务需求增长促进技术迭代,技术满足需求后又形成闭环促进业务持续增长,从而形成一个闭环。
数据分析与数据挖掘的区别是什么?数据分析可以分为广义的数据分析和狭义的数据分析。
广义的数据分析就包括狭义的数据分析和数据挖掘。
我们在工作中经常常说的数据分析指的是狭义的数据分析。
三、数据库据库什么是数据库?数据库是按照数据结构来组织、存储和管理数据的仓库。
是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。
根据数据存储的方式不同,可以将数据库分为三类:分别为行存储、列存储、行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata等;行列混合存储的数据库代表产品有TiDB,ADB for Mysql等。
数据仓库和数据湖的比较
数据仓库和数据湖的比较数据仓库和数据湖是两种不同的数据存储和管理方式,随着大数据时代的到来,越来越多的企业开始尝试建立数据仓库或数据湖,以实现数据的有效管理和分析。
本文将对数据仓库和数据湖这两种不同方案进行比较分析。
一、数据仓库和数据湖的定义数据仓库是指企业将各个系统的数据采集、清洗、融合并转换成一致性和可信赖的、面向主题且集成的只读数据集合的过程。
数据仓库通常用来支持企业决策,提供数据分析和报表服务。
数据湖是指企业将原始、半结构化和非结构化的数据存储在海量的中心存储库中。
数据湖通常用来支持各种数据分析和数据挖掘任务,数据湖可以多源杂乱的数据集集中起来,然后通过数据挖掘和机器学习等数据科学技术来挖掘数据的价值和洞见。
二、数据仓库和数据湖的优缺点比较1. 数据仓库优点- 数据一致性和可靠性更高:数据仓库一般采用ETL工具将数据进行清洗、整合和转换,确保数据的一致性和准确性。
- 专注于业务指标和分析:数据仓库以企业决策和业务分析为导向,数据仓库可以提供高度集成和专业的业务报表和指标分析服务。
- 数据安全性更高:数据仓库一般有比较高的数据安全控制措施,可以很好地保障数据的安全。
2. 数据仓库缺点- 受限于数据源和技术:数据仓库的数据集往往来源于企业内部的数据,因此缺乏第三方数据来源。
同时,由于数据仓库的建设需要技术人员编写ETL程序、数据建模等操作,因此需要相当的技术支持。
- 数据更新相对较慢:数据仓库一般采用批处理的方式对数据集更新,因此数据的更新频率相对较慢。
- 不适用于复杂分析和查询:数据仓库的数据集相对固定,难以支持复杂的数据分析和查询需求。
3. 数据湖优点- 存储各种数据类型:数据湖可以存储各种数据类型,从传统的结构化数据到非结构化数据和机器生成的数据等。
- 适用于实时数据更新:数据湖可以接收和存储实时的数据流,因此能够满足实时数据分析和查询的需求。
- 更加灵活:数据湖采用“schema on read”的方式访问数据,这意味着数据湖能够支持从不同角度的访问和分析,更加灵活。
什么是数字中台?全面解读数字中台
什么是数字中台?全面解读数字中台
数字中台的概念
数字中台是指将传统商业模式下各个部门的数据和业务通过技术手段,整合至一个中心化的平台上,以实现数据共享和业务互通的一种商业形态及商业模式。
数字中台的特点
数字中台有三个特点:
1. 数据共享
数字中台可以将不同部门的数据进行整合,形成数据湖和数据仓库,从而实现数据的共享。
2. 业务互通
数字中台可以打通不同业务之间的障碍,使各部门之间的业务可以互相协同。
3. 价值升级
数字中台可以将原本孤立的业务或数据连接起来,从而创造更多的商业价值。
数字中台的应用场景
数字中台的应用场景非常广泛,主要包括以下两个方面:
1. 企业内部
数字中台可以帮助企业内部打破组织壁垒,实现内部各个部门数据的流通和共享,从而提高效率和创造更多的价值。
2. 企业与生态合作伙伴
数字中台还可以帮助企业与生态合作伙伴之间建立连接,实现资源共享,推动生态共赢。
数字中台的未来展望
数字中台是数字化转型的重要一环,未来将会在云计算、大数据、人工智能等方面得到越来越广泛的应用。
数字中台将会扮演更加重要的角色,成为企业数字化转型的核心能力。
数字中台的发展离不开技术的支持,但数字中台的建设并不是一蹴而就的,需要企业逐步推进和完善。
结论
数字中台是数字化转型的重要实践,将成为未来企业数字化转型的核心能力。
目前数字中台的建设过程仍有很多挑战,企业需要逐步推进和完善数字中台建设,才能真正实现数字化转型的目标。
数据仓库、数据中台与数据湖
数据仓库、数据中台与数据湖1.数据仓库数据仓库由数据仓库之父比尔·恩门(数据分析ll Inmon)于1990年提出,英文名称为Data Warehouse,可简写为DW或DWH。
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
它是单个数据存储,出于分析性报告和决策支持目的而创建。
为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
主要特点如下:面向主题,指数据仓库内的信息是按主题进行组织的,而不是像业务系统那样按照功能组织。
集成,指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
数据是基于历史的指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。
通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库有两种类别,一是MOLAP,数据以多维方式存储以减少存储空间并提高查询效率,代表厂商为微软;一是ROLAP,数据以关系数据库方式存储,代表厂商为SAP BO。
数据仓库发展至今得到了广泛的应用,但是随着技术的进步,特别是存储硬件的价格下降与分布式计算的发展,数据仓库也遇到了一些问题:数据实时性问题由于数据仓库是基于历史数据的,无法满足现代企业管理需求,原来数据仓库基于历史数据设计主要是为了提高查询效率,但是现代的硬件技术与分布式计算早已提供了更好的解决方法。
数据共享问题数据仓库以主题方式组织数据,比如财务数据、销售数据、采购数据,就使得在解决数据孤岛的问题上又形成了一棵棵“数据烟囱”,各部门在使用数据时,仍然会面临数据不一致问题,且数据仓库与业务之间高度耦合,也使得数据仓库维护工作量很大,修改起来工作量巨大,难以跟上管理变革。
数据分析对业务的支撑不足由于数据分析是基于历史数据的分析,而业务是实时的,所以两者之间存在一定的时间差,导致数据分析只能起到对业务的“支撑”作用,而无法起到对业务的“驱动”作用。
数据仓库和数据湖的区别
数据仓库和数据湖的区别
在实际项⽬开发中,需要和数据仓库以及数据湖那边的开发同事进⾏对接,头⼀次听到这两个名词,⾃⼰也是⼀头雾⽔。
下⾯我就以我⾃⼰的理解,简单的向⼤家介绍⼀下。
数据库:就是存储当前的业务数据,集中存储的是公司经常使⽤到的数据(存储的是公司近50年的数据);
数据仓库:也是存储的公司的各种业务数据,主要集中存储的是结构化的数据。
当然也存储少量⾮结构化的数据(存储的是近100年的业务数据);
数据湖:也是存储公司的各种各样的数据,主要集中存储结构化和⾮结构化的数据。
(存储的是公司好⼏百年之前的数据)。
数据仓库和数据湖,我⽣成的⽂件,是可以直接分别给他们进⾏传递的。
两者之间,没有必然的联系。
数据仓库与数据湖的区别与优劣
数据仓库与数据湖的区别与优劣数据仓库和数据湖都是用于存储和管理数据的解决方案,但它们在设计理念、数据结构和使用方式上存在显著的差异。
本文将详细介绍数据仓库和数据湖的区别与优劣。
一、数据仓库的定义和特点数据仓库是一种面向主题的、集成的、相对稳定的数据集合,旨在支持企业的决策分析需求。
数据仓库通常采用结构化数据存储方式,经过数据清洗和转换等ETL过程,将来自不同数据源的数据进行整合和集中存储。
以下是数据仓库的主要特点:1. 面向主题:数据仓库主要关注企业的业务主题,如销售、客户、供应链等,而不关注具体的业务过程。
2. 集成的:数据仓库通过ETL过程将来自多个数据源的数据进行整合,并采用统一的数据模型进行存储。
3. 相对稳定的:数据仓库的数据结构相对固定,不容易随着业务需求的变化而频繁改变。
4. 面向分析:数据仓库的数据主要用于支持企业的决策分析需求,如查询、报表、数据挖掘等。
二、数据湖的定义和特点数据湖是一种存储大量原始和半结构化数据的解决方案,它以原始数据的形式存储,而不需要预先定义其结构或模式。
以下是数据湖的主要特点:1. 存储原始数据:数据湖可以存储各种类型、格式和结构的数据,包括结构化数据、非结构化数据以及半结构化数据。
2. 无模式的:数据湖不需要预先定义数据的结构或模式,可以直接将数据存储在原始形式中。
3. 弹性的:数据湖可以容纳大规模的数据,并支持灵活的数据访问和处理需求。
4. 延迟低:数据湖可以实时或近实时地接收和存储数据,支持实时数据分析和决策。
三、数据仓库与数据湖的区别1. 数据结构:数据仓库一般采用规范化的结构化数据模型,而数据湖则以原始数据的形式存储,不需要预定义的结构或模式。
2. 数据整合:数据仓库经过ETL过程将多个数据源的数据整合到一起,而数据湖可以存储各种类型、格式和结构的数据,无需事先进行整合。
3. 数据处理:数据仓库中的数据经过清洗、转换和加工等操作,使其适合进行决策分析。
10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)
10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)编辑导语:作为一名数据小白,在日常学习和工作中经常会接触到数据。
随着用户数据与业务数据的不断累加,数据管理与处理愈发重要。
本篇文章中,作者将一文说明数据库、数据仓库、数据湖、数据中台的区别与联系。
作为数据相关的产品小白,在日常学习工作中经常能看到或者听到大家在讨论数据库,数据仓库,数据集市,数据湖还有最近比较火的数据中台,似乎这些名词都与数据存在着联系,查看各类相关书籍,大部分书籍中的内容过于专业晦涩难懂。
那么这篇文章结合我积累的相关方面知识,向大家介绍一下上述这些名词的区别与联系,以及在各类企业及业务上的适用范围,如有不准确的地方,希望大家进行指正。
一、何为数据库相信大部分有些许技术背景的同学们都对数据库有一定的了解,数据库是“按照数据结构来组织、存储和管理数据的仓库”,一般分为“关系型数据库”与“非关系型数据库”。
1. 关系型数据库实际上过去的数据库一共有三种模型,即层次模型,网状模型,关系模型。
(1)首先层次模型的数据结构为树状结构,即是一种上下级的层级关系组织数据的一种方式:(2)网状模型的数据结构为网状结构,即将每个数据节点与其他很多节点都连接起来:(3)关系模型的数据结构可以看做是一个二维表格,任何数据都可以通过行号与列号来唯一确定:由于相比于层次模型和网状模型,关系模型理解和使用最简单,最终基于关系型数据库在各行各业应用了起来。
关系模型的数学原理涉及到关系,元组,属性,笛卡尔积,域等等令人头秃的数学术语,这里大家如果感兴趣可以看看相关的文献,我就不放出来催眠大家了,尽管数学原理非常复杂,但如果用日常学习工作的具体事务举例,就相对容易理解。
我们以某公司的员工信息表为例,该公司的员工信息可以用一个表格存起来。
并且定义如下:同时部门ID对应这另一个部门表:我们可以通过给定一个部门名称,查到一条部门的记录,根据部门ID,又可以查到该部门下的员工记录,这样二维的表格就通过ID映射建立了“一对多”的关系。
通俗语言解释数据仓库、数据湖、数据中台
通俗语⾔解释数据仓库、数据湖、数据中台数据仓库如何理解数据仓库?举个简单的例⼦。
我现在打算学习⼤数据的内容,所以我看了CSDN,博客园,微信的⼤数据公众号,⼀些实体书等等,并且我在看某些这些东西的时候,有些不错的⽂章我都收藏了,储存在这些论坛的账号中,实体书我也做了很多标记,来标出那些对我有⽤的部分。
看了好⼏个⽉之后,我打算来⼀次整体的复习,结果这个时候遇到了困难:我收藏的⽂章太多了,我完全记不得到底哪些⽂章在哪⾥了,如果我要找某⼀篇⽂章,我可能要从头开始⼀个⼀个的翻找这些论坛的收藏夹,看看我要找的东西到底在哪⾥,况且还要实体书呢!也要翻⼀遍!这⼯作量也太⼤了,⽽且我每找⼀次东西都要⼏乎从头开始找⼀次,太⿇烦了,此时我想到,我为什么不把我收藏夹的那些东西都放到⼀个地⽅呢?这样我也不⽤登录很多账号找了,此时我就想到,我是不是可以⽤Word软件呢?把收藏夹⾥⾯的⽂章都复制到Word⾥不就可以了吗?⽽且Word软件还有查找功能,⽐这样翻找的快太多了!⽴马⾏动,我开始把⼀篇⽂章从标题到内容全都复制到Word⽂档⾥,实体书上的我也打字打进来,花了好⼏天时间,我终于把所有的东西都搬到Word⽂档上了,真是累死了!这个时候我⼜有了新的⿇烦:虽然我按照⼀篇⽂档⼀个⽂件来分开,但是这些⽂件⾮常多,⽽且标题都不明确,单从⽂件名字上来看根本就不知道内容是什么,如果要知道是什么内容,还是需要⼀个⼀个打开来看。
这样并不⽐之前的操作要轻松啊?我花了这么多的时间,结果也就省了⼀个打开⽹页的操作,反⽽⼜增加了⼀个打开Word⽂档的操作,这样似乎⽐之前更⿇烦了,毕竟我的电脑打开⽹页还好,打开Word可慢多了,这要怎么办呢?这时候我⼜想到了⼀个办法:把这些⽂档全部打开看看,然后把⽂件名字改好,改成我⼀眼就能看得懂的名字,这样就很便于查找了吧,毕竟看⼀眼名字就知道这个⽂件是不是我想要的,于是我⼜花了好⼏天的时间,把这些⽂档按照⽂章的内容,概括出来⼀个主题,把它当作⽂档的名字,当我完成之后我觉得⽬前就可以很轻松的通过Wrod⾃带的查找功能来找到我想要的⽂档来看了,我觉得我的整理⼯作以及结束了可是当我开始复习这些资料的时候,⼜发现了⼀个问题:这些⽂档读起来很冗余,很多的地⽅都是重复的,⽽且有的⼏乎都全部重复了仅仅有⼀⼩部分才是不同的,⽐如什么Hadoop的定义啥的,这些很多⽂档都写了,⽽且都是⼀模⼀样的,每次打开⽂档都要看⼀遍,⽽且还很占⽤我的磁盘空间,⽽另外⼀些,⽐如Hadoop的版本解读,我搜集的这些⽂档,从1.0.x到3.0.x的版本解读都有,但是我想要从1.0到3.0的版本变化,这样的话的得把这些⽂档全部都打开,然后⼀个⽂档⼀个⽂档的看,每次这样翻我也很烦躁,我只想更懒⼀点,为什么没有⼀个⽂档整理了从1.0到3.0所有的版本变化呢?我在⽹上也没找到,哎,靠⼈不如靠⾃⼰,我还是⾃⼰来吧!这个时候我经过了前两次的整理经历之后我学聪明了,我没有⼀开始就着⼿整理,我想了⼀下,我现在到底需要整理成什么样⼦?1.不变的东西整理到⼀个⽂档⾥⾯去,上⾯写上xxxx定义2.会变的东西,⽐如版本解读啥的,每个版本都会有⼀个⽂档,这些我也整理到⼀个⽂档⾥⾯去,这样我就不⽤到处翻来翻去了3.但是之前的这些东西我不能删掉,我⾃⼰合并的东西可能有的不全,或者是合并的有问题,我需要找原来的⽂档对⽐⼀下,如果我把之前的删掉,⼀旦我打错了字,我可能就会⼀直学了错的知识了好吧,我⽬前就想到这么多,那我就开始整理吧!于是我⼜花了好⼏天的时间,把原来的⽂档中的东西提取出来,重复的定义都合并到⼀起并且只留⼀份,不同的版本解读我放到⼀个⽂档⾥⾯去,然后我要保存之前的那些原始的⽂档,这俩东西不能都在⼀个都放在⼀个⽂件夹⾥⾯吧,这样也太乱了,于是我⼜打算吧这两个放在两个⽂件夹⾥⾯,我创建了两个⽂件夹,⼀个存放原始的⽂档,⼀个存放我整理好的⽂档,然后把这俩⽂件夹都放到⼀个叫知识库的⽂件夹⾥⾯,这样我的整理⼯作貌似真的已经完成了。
数据湖、数据仓库、数据中台,有什么区别?
数据湖、数据仓库、数据中台,有什么区别?随着大数据技术在各领域大量的运用,数据管理工具也得到了飞速的发展,从最初决策支持系统(DSS)到商业智能(BI)、数据仓库,然后逐步发展并出现了功能更强大的数据湖、数据中台。
但是对于这些概念很容易混淆,下面就主要谈谈他们之间的区别便于读者对数据平台相关的概念有全面的认识。
第一数据仓库说到数据仓库就不得不提一下BI系统BI(Business Intelligence)中文名称是商业智能,百度上的解释是:“用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
”简单的说就是企业充分利用其数据进行多维度分析,掌握自己公司的经营状况,帮助业务人员和高层人员做分析和决策,它起源于决策支持系统(decision support system),其展现形式更多以报表方式实现。
一,数据仓库的定义数据仓库是一个面向主题的、集成的、随着时间不断变化、非易失性的,随时间变化的用来支持管理人员决策的数据集合,就是为BI 应用服务的。
面相主题:就是进行决策分析时重点关注的方向,比如某个分析的主题是收入,和库存。
那么数仓里的数据都是以收入和库存在主题组织的。
集成:这个比较容易理解就是存在数据仓库里的数据都是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
随着时间不断变化:是指数据仓库中的数据是一段时间以来的数据总和随着时间的变化数据还是会进行更新,通过这些更新的数据信息,才可以对企业的发展历程和未来趋势做出定量分析和预测。
非易失性:数据仓库中的数据通常是一次载入和访问的,并且数据在一定意义上不进行更新。
这和上面的并不矛盾只是参考的东西不同而已。
二,数据仓库的定位和缺点传统的数仓只是满足领导数据决策的需要,因此更多的体现在报表输出,使用者以小部分的业务人员和决策层为主,新需求的开发周期以月甚至到年为计。
数据处理能力有限,很少有EDW的数据容量超过1TB,因此不能对基础数据进行跨域的处理(原因是RMDBS对大数据量的关联join处理耗时非常长),因此要对新的指标分析的时候需要从基础数据重新生成汇总表,耗时耗力,使用方法上无法实现跨数据集或数据域的处理。
2023-数据仓库、数据湖、数据中台技术方案V1-1
数据仓库、数据湖、数据中台技术方案V1随着大数据时代的到来,企业内部产生的数据量越来越大,如何高效地管理、利用这些数据已成为企业面临的挑战之一。
为了解决这一问题,出现了类似数据仓库、数据湖、数据中台等技术方案,本文将对这三种方案进行介绍和对比。
一、数据仓库数据仓库是一种面向主题的、集成的、相对稳定的数据存储,主要用于支持企业决策。
数据仓库以数据驱动,关注企业重要的主题、业务过程和绩效等指标。
数据仓库的两个主要特点是数据集成和数据一致性,它可以将多个数据源的数据集成到一个单一的、可查询的数据源中,确保数据的一致性和准确性。
数据仓库的优势在于较好地支持企业决策,缺点在于数据集成的复杂度较高,需要有专业的数据仓库建模、ETL等技术人员进行设计和维护。
二、数据湖数据湖是一种不加限制地存储所有原始数据的存储形式,相对于数据仓库更注重数据的存储和处理。
数据湖中包含的数据源可能是结构化、半结构化或非结构化的数据,数据的移动、转换和处理等都在数据湖中进行。
数据湖之所以受到关注,是因为它可以在数据被使用前,将未经过处理或加工的数据获取到,从而使分析师和数据科学家可以无需等待将数据集成到单一数据源,并对其进行处理。
然而,数据湖中数据的一致性较差,需要有更多的数据清洗等工作,此外,数据湖中的数据流动和兼容性问题也需要在使用前注意。
三、数据中台数据中台是继数据仓库和数据湖之后兴起的一种数据技术方案,主要关注企业数据化转型建设。
数据中台将数据和业务解耦,并在数据存储、计算、组织等方面进行统一,提供企业级别的数据服务。
数据中台采用微服务和数据开放接口(API)的方式,将支撑业务和分析的数据资源整合在一起。
数据中台的优势在于其架构相对清晰,开放性较好,提供了企业级别的数据服务;缺点在于需要进行为期较久的构建Phase,且工作的难度相对较高。
综上所述,数据仓库、数据湖和数据中台都有着各自的优势和缺点,在企业的选择中需要根据自身的情况进行评估。
什么是数据中台?全面解读数据中台
什么是数据中台?全面解读数据中台随着企业规模的扩大和业务多元化,数据中台的出现成为了必然趋势。
数据中台通过对海量数据进行采集、计算、存储和加工,实现了数据的统一标准和口径,形成了标准数据和大数据资产层,为客户提供高效服务。
数据中台是企业业务和数据的沉淀,它不仅能降低重复建设、减少烟囱式协作的成本,也是差异化竞争优势所在。
建立数据中台的原因有很多,其中包括大数据可以告诉决策者一些潜在的规律,以数据来证明或判断决策;数据催生人工智能,为企业带来无限的创新;数据是机器人的指令,形成数据服务思维,让机器智能成为决策环节,运营可以智能化。
中台的目标是提升效能、数据化运营、更好支持业务发展和创新,是多领域、多BU、多系统的负责协同。
数据中台的重要性主要体现在回归服务的本质,实现数据重用,降低重复建设和协作成本,以及差异化竞争优势的构建。
数据中台的广义定义包括了一系列数据技术,如对海量数据进行采集、计算、存储和加工等,以及数据模型、算法服务、数据产品、数据管理等,与企业的业务有较强的关联性。
数据中台的建立需要解决复杂的情况,但它能够为企业提供高效服务,降低重复建设和协作成本,实现业务的创新和发展。
因此,数据中台是企业数字化转型中不可或缺的一部分。
XXX已经建立了2000个基础模型作为所有数据服务开发的基础。
这些基础模型能够做到“书同文,车同轨”,无论应用的数据模型有多复杂,总是能追溯到2000张基础表。
这奠定了数据核对和认知的基础,最大程度地避免了“重复数据抽取和维护带来的成本浪费。
”曾经企业的数据抽取就有多份,报表一份,数据仓库一份,地市集市一份,无论是抽取压力、维护难度还是数据一致性要求都很高。
同时,统一的基础模型将相关业务领域的数据做了很好的汇聚,解决了数据互通的需求。
这点的意义巨大,因为数据1+1>2.在企业内,无论是专题、报表还是取数,当前基本是烟囱式数据生产模式或者是项目制建设方式。
这必然导致数据知识得不到沉淀和持续发展,从而造成模型不能真正成为可重用的组件,无法支撑数据分析的快速响应和创新。
数据仓库与数据湖架构的比较分析
数据仓库与数据湖架构的比较分析一、什么是数据仓库和数据湖数据仓库和数据湖都是数据管理和存储的架构体系。
数据仓库是一个面向主题、集成的、存储历史数据的数据集合,通常是从各种不同的操作性系统中抽取和转换数据的结果。
相比之下,数据湖是一种存储所有原始数据的架构,无论是结构化、半结构化或非结构化的数据,都可以放置在数据湖之中。
数据湖把数据存储在文件形式中,以便更好地支持数据的分析和处理。
二、数据仓库和数据湖的比较1. 数据模型数据仓库需要进行大量的前期建模工作,包括设计维度模型和事实表等。
因此,数据仓库的数据模型是预定义的,数据模型的设计需要知道将要存储和分析的数据。
相比之下,数据湖的数据模型是由存储在其中的数据来定义的。
这意味着,数据湖不需要预定义的数据模型。
2. 处理能力数据仓库的数据被预处理和转换为数据模型来满足BI工具的需求。
这意味着,在制作数据仓库时,数据的清理和转换过程是极其重要的。
与之相反,数据湖可以支持更广泛的分析和数据处理。
这使得数据湖非常适合现代数据分析工作负载,如机器学习等。
3. 数据访问和授权数据仓库为用户提供有限的查询和报告工具,并具有明确定义的数据范围和安全性。
相比之下,数据湖为用户提供了原始格式的数据,具有更大的自由度和灵活性。
因此,数据湖需要更高的安全性和访问控制,以防止数据泄露和滥用。
4. 扩展性和适应性由于数据仓库的数据模型是预定制的,因此在数据模型改变时,需要进行迁移和重建。
相比之下,数据湖能够扩展到几乎任何规模和数据类型,它具有更大的灵活性和适应性。
5. 性能因为数据仓库是预处理的,并且设计为支持大量查询和报告工具,所以它们通常具有较高的性能。
相比之下,数据湖的性能取决于数据的存储和处理方式。
对于大数据集的计算、过滤和查询,数据湖的性能可能是一个挑战。
三、结论总体来说,数据仓库和数据湖都有他们自己的优缺点和适用情形。
选择哪种架构体系通常取决于应用程序的需求以及潜在的数据和分析工作负载。
了解并使用数据仓库与数据湖技术
了解并使用数据仓库与数据湖技术数据仓库和数据湖是两种常用的数据存储和处理技术,在企业信息化和大数据应用中具有重要的作用。
本文将介绍数据仓库和数据湖的概念、特点、优缺点以及如何选择合适的方案进行数据管理。
数据仓库是一种面向主题的、集成的、反映历史变化的数据集合,用于支持企业决策和业务分析。
数据仓库通常采用ETL(抽取、转换、加载)的过程将数据从业务系统中抽取,经过清洗、转换、整合,最终存储到数据仓库中。
数据仓库采用星型或雪花型的数据模型,具有高度规范化和结构化的特点,适合于存储和分析实时性较强的结构化数据。
数据湖是一种基于存储和计算技术的数据存储系统,用于存储不同结构、不同来源和不同质量的大数据。
数据湖一般采用对象存储或分布式文件系统来存储原始数据,并结合Hadoop、Spark等计算框架进行数据处理和分析。
数据湖具有架构灵活、规模可扩展、能够存储各种类型数据的特点,适合于存储海量非结构化数据和实时性较弱的数据。
数据仓库和数据湖各有优缺点,在选择时需要根据需求和场景进行综合考虑。
数据仓库适合于需要进行复杂的数据处理和分析、需要严格保证数据一致性和准确性的场景,但建设和维护成本较高。
数据湖适合于需要存储大规模非结构化数据、需要快速搭建数据存储和处理平台的场景,但在数据质量管理和数据治理方面存在挑战。
在实际应用中,企业可以根据自身需求选择数据仓库、数据湖或两者结合的方式进行数据管理。
对于已有结构化数据且需求较为明确的场景,可以选择数据仓库进行数据管理;对于需要存储海量非结构化数据或需要进行大数据分析的场景,可以选择数据湖进行数据管理。
有时候也可以将数据仓库用作数据湖的数据源,通过ETL等方式将数据仓库的数据导入到数据湖中,从而实现数据的整合和分析。
总的来说,数据仓库和数据湖是企业数据管理和分析的重要工具,各有优势和适用场景。
在选择数据管理技术时,需要充分了解两种技术的特点和优缺点,根据需求和场景进行合理选择,才能更好地实现数据的管理和价值挖掘。
云计算中的数据湖与数据仓库
云计算中的数据湖与数据仓库在云计算的时代,数据的规模和复杂性不断增长。
为了有效地存储、管理和处理海量数据,数据湖和数据仓库成为了两个重要的概念和解决方案。
本文将对云计算中的数据湖与数据仓库进行介绍和比较,并讨论它们的优缺点以及适用场景。
一、什么是数据湖和数据仓库数据湖是一种以原始、未经处理的数据为基础的存储系统。
它将结构化数据、半结构化数据和非结构化数据存储在一起,而无需预定义数据模型。
数据湖采用扁平的存储结构,将数据以原始的形式存储起来,可以方便地进行数据分析和处理。
数据仓库是一种经过清洗、整理和加工的数据集合,用于支持决策制定和业务分析。
数据仓库通过将数据从不同的来源整合在一起,并按照预定义的模式进行组织和存储,提供高度的数据可用性和一致性。
二、数据湖与数据仓库的对比1. 数据模型数据湖不需要预定义的数据模型,可以直接存储原始数据。
这意味着数据湖可以容纳各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。
然而,这也导致了数据湖中的数据质量和一致性问题。
数据仓库需要预定义的数据模型,数据需要经过清洗和整理后才能进入仓库。
这能确保数据的一致性和质量,但也限制了数据仓库的灵活性。
2. 数据处理数据湖提供了原始数据的存储和管理功能,可供数据科学家和分析师使用。
数据湖支持大数据处理技术,如Hadoop和Spark,可以进行复杂的数据处理和分析。
数据仓库则更侧重于决策支持与商业智能。
数据仓库通常采用关系数据库管理系统(RDBMS),提供了高度规范化的数据模型和丰富的查询功能。
3. 数据访问数据湖的数据访问灵活,可以根据需要进行各种分析和探索。
数据湖的数据通常以原始的、未经加工的形式呈现,需要用户具备较高的数据处理和分析能力。
数据仓库的数据访问相对受限,主要面向事先定义好的查询和报表需求。
数据仓库提供了高度规范化的数据模型和预定义的指标,用户可以通过简单的查询和报表工具来获取所需的信息。
三、适用场景数据湖适用于需要存储和分析各种类型和格式的原始数据的场景。
数据管理,数据治理,数据中心,数据中台,数据湖都是什么意思,有什么关系呢?
数据管理,数据治理,数据中心,数据中台,数据湖都是什么意思,有什么关系呢?数据治理和数据管理简单来说治理就是管理的管理。
管理你得遵循一定得标准规范体系,一定得流程,一定得组织角色分工,而这些内容就必须先通过数据治理定义清楚。
管理只是根据数据治理规范体系去执行管理和监督得职责。
既管理执行得依据是治理规范体系。
如下图:数据中台和数据湖这个要解释清楚不太容易,因此我尽量做简化。
数据湖一般是公有云服务商提出得一个概念,即企业得结构化,非结构化数据都可以全部采集和存储到我这里来。
数据湖就是一个大得存储站,这个存储是分布式可无限扩展得,存储过来得数据也不会去清洗和加工,尽量保持原样。
在存过来后,数据湖再提供一些标准得开放接口给你使用数据,这些接口包括了查询SQL类接口,计算引擎接口,流处理接口等。
提供接口得目的也很简单,你能够方便得使用你存储过来得数据。
数据湖得存储一般是分布式对象存储或分布式文件存储,即使你是结构化数据库采集过来得数据,仍然会转成统一的存储方法,方便扩展。
数据中台简单来说企业共享数据能力下沉并对外开放。
数据中台包括了底层数据技术平台(可以是我们熟悉的大数据平台能力),中间的数据资产层,上层的数据对外能力开放。
核心的资产层本身也分层,从最底层的贴源数据,到分域应用数据,再到上层的数据仓库和数据标签库。
而数据湖更多对应到数据中台概念里面的数据贴源层。
企业实际在建数据中台的时候实际很少用数据湖这个概念。
两者的对比映射如下:数据中心对于数据中心这个词,原来在BI系统应用里面也经常出现。
但是现在数据中心一般特指IT基础设施,大的公有云数据机房等,在BI系统或数据中台里面都很少用这个词。
即数据中心这个词偏IT硬件基础设施层面了。
比如下图,一般指硬件和网络基础设施架构了。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
全面解读数据中台、数据仓库和数据湖如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。
这些数据需要被存储起来并且能够被方便的分析和利用。
随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。
1.1 数据库关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel表格。
这种数据库类型,具有结构化程度高,独立性强,冗余度低等等优点,一下子就促进了计算机的发展。
1.2 操作型数据库和分析型数据库随着关系数据库理论的提出,诞生了一系列经典的RDBMS,如Oracle,MySQL,SQL Server等。
这些RDBMS被成功推向市场,并为社会信息化的发展做出的重大贡献。
然而随着数据库使用范围的不断扩大,它被逐步划分为两大基本类型:操作型数据库主要用于业务支撑。
一个公司往往会使用并维护若干个操作型数据库,这些数据库保存着公司的日常操作数据,比如商品购买、酒店预订、学生成绩录入等;分析型数据库主要用于历史数据分析。
这类数据库作为公司的单独数据存储,负责利用历史数据对公司各主题域进行统计分析;那么为什么要"分家"?在一起不合适吗?能不能构建一个同样适用于操作和分析的统一数据库?答案是NO。
一个显然的原因是它们会"打架"…如果操作型任务和分析型任务抢资源怎么办呢?再者,它们有太多不同,以致于早已"貌合神离"。
接下来看看它们到底有哪些不同吧。
1.3 操作型数据库 VS 分析型数据库因为主导功能的不同(面向操作/面向分析),两类数据库就产生了很多细节上的差异。
这就好像同样是人,但一个和尚和一个穆斯林肯定有很多行为/观念上的不同。
接下来本文将详细分析两类数据库的不同点:数据组成差别 - 数据时间范围差别一般来讲,操作型数据库只会存放90天以内的数据,而分析型数据库存放的则是数年内的数据。
这点也是将操作型数据和分析型数据进行物理分离的主要原因。
数据组成差别 - 数据细节层次差别操作型数据库存放的主要是细节数据,而分析型数据库中虽然既有细节数据,又有汇总数据,但对于用户来说,重点关注的是汇总数据部分。
操作型数据库中自然也有汇总需求,但汇总数据本身不存储而只存储其生成公式。
这是因为操作型数据是动态变化的,因此汇总数据会在每次查询时动态生成。
而对于分析型数据库来说,因为汇总数据比较稳定不会发生改变,而且其计算量也比较大(因为时间跨度大),因此它的汇总数据可考虑事先计算好,以避免重复计算。
数据组成差别 - 数据时间表示差别操作型数据通常反映的是现实世界的当前状态;而分析型数据库既有当前状态,还有过去各时刻的快照,分析型数据库的使用者可以综合所有快照对各个历史阶段进行统计分析。
技术差别 - 查询数据总量和查询频度差别操作型查询的数据量少而频率多,分析型查询则反过来,数据量大而频率少。
要想同时实现这两种情况的配置优化是不可能的,这也是将两类数据库物理分隔的原因之一。
技术差别 - 数据更新差别操作型数据库允许用户进行增,删,改,查;分析型数据库用户则只能进行查询。
技术差别 - 数据冗余差别数据的意义是什么?就是减少数据冗余,避免更新异常。
而如5所述,分析型数据库中没有更新操作。
因此,减少数据冗余也就没那么重要了。
现在回到开篇是提到的第二个问题"某大公司Hadoop Hive里的关系表不完全满足完整/参照性约束,也不完全满足范式要求,甚至第一范式都不满足。
这种情况正常吗?",答曰是正常的。
因为Hive是一种数据仓库,而数据仓库和分析型数据库的关系非常紧密(后文会讲到)。
它只提供查询接口,不提供更新接口,这就使得消除冗余的诸多措施不需要被特别严格地执行了。
功能差别 - 数据读者差别操作型数据库的使用者是业务环境内的各个角色,如用户,商家,进货商等;分析型数据库则只被少量用户用来做综合性决策。
功能差别 - 数据定位差别这里说的定位,主要是指以何种目的组织起来。
操作型数据库是为了支撑具体业务的,因此也被称为"面向应用型数据库";分析型数据库则是针对各特定业务主题域的分析任务创建的,因此也被称为"面向主题型数据库"。
2.1 概述数据仓库就是为了解决数据库不能解决的问题而提出的。
那么数据库无法解决什么样的问题呢?这个我们得先说说什么是OLAP和OLTP。
2.2 OLTP和OLAP2.2.1 OLTPOLTP(OnLine Transaction Processing 联机事务处理)。
简单一些,就是数据库的增删查改。
举个例子,你到银行,去取一笔钱出来,或者转账,或者只是想查一下你还有多少存款,这些都是面向“事务”类型的操作。
这样的操作有几个显著的特点:首先要求速度很快,基本上都是高可靠的在线操作(比如银行),还有这些操作涉及的数据内容不会特别大(否则速度也就相应的降低),最后,“事务”型的操作往往都要求是精准操作,比如你去银行取款,必须要求一个具体的数字,你是不可能对着柜台员工说我大概想取400到500快之间吧,那样人家会一脸懵逼。
2.2.2 OLAP这个东西又是上面发明关系型数据库的科德发明的。
OLAP略有复杂,但这里我举一个简单的例子,大家就很容易理解了。
比如说,沃尔玛超市的数据库里有很多张表格,记录着各个商品的交易记录。
超市里销售一种运动饮料,我们不妨称之为红牛。
数据库中有一张表A,记录了红牛在一年的各个月份的销售额;还有一张表B,记录了红牛每个月在美国各个州的销售额:;甚至还有一张表C,记录了这家饮料公司在每个州对红牛饮料的宣传资金投入;甚至后来沃尔玛又从国家气象局拿到了美国各个州的一年365天每天的天气表。
好,最后问题来了,请根据以上数据分析红牛在宣传资金不超过三百万的情况下,什么季节,什么天气,美国哪个州最好卖?凭借我们的经验,可能会得出,夏季的晴天,在美国的佛罗里达,最好卖,而且宣传资金投入越高销售额应该也会高。
可能这样的结论是正确的,但决策者想要看到的是确凿的数据结论,而不是“可能”这样的字眼。
科学是不相信直觉的,如果我们人工进行手动分析,会发现这个要考虑的维度实在太多了,根本无法下手,何况这才四五个维度,要是更多了怎么办?OLAP就是为了解决这样的问题诞生的,但糟糕的是,传统数据库是无法满足OLAP所需要的数据信息的。
2.3 数据仓库概念2.3.1 概述数据库的大规模应用,使得信息行业的数据爆炸式的增长,为了研究数据之间的关系,挖掘数据隐藏的价值,人们越来越多的需要使用OLAP来为决策者进行分析,探究一些深层次的关系和信息。
但很显然,不同的数据库之间根本做不到数据共享,就算同一家数据库公司,数据库之间的集成也存在非常大的挑战(最主要的问题是庞大的数据如何有效合并、存储)。
1988年,为解决企业的数据集成问题,IBM(卧槽,又是IBM)的两位研究员(Barry Devlin和Paul Murphy)创造性地提出了一个新的术语:数据仓库(Data Warehouse)。
看到这里读者朋友们可能要问了,然后呢?然后…然后就没然后了。
就在这个创世纪的术语诞生了之后,IBM就哑火了,只是将这个名词作为市场宣传的花哨概念,并没有在技术领域有什么实质性的研究和突破(可悲我大IBM=。
=)。
然而,尽管IBM不为所动,其他企业却在加紧对数据仓库的研究和开发,大家都想在这个领域寻找到第一桶金。
终于,到了1992年,后来被誉为“数据仓库之父”的比尔恩门(Bill Inmon)给出了数据仓库的定义,二十多年后的今天他的定义依然没有被时代淘汰。
我们来看看他是怎么定义的:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。
对于数据仓库的概念我们可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
我们可以不用管这个定义,简单的理解,其实就是我们为了进行OLAP,把分布在各个散落独立的数据库孤岛整合在了一个数据结构里面,称之为数据仓库。
这个数据仓库在技术上是怎么建立的读者朋友们并不需要关心,但是我们要知道,原来各个数据孤岛中的数据,可能会在物理位置(比如沃尔玛在各个州可能都有自己的数据中心)、存储格式(比如月份是数值类型,但但天气可能是字符类型)、商业平台(不同数据库可能用的是Oracle数据库,有的是微软SQL Server数据库)、编写的语言(Java或者Scale等)等等各个方面完全不同,数据仓库要做的工作就是将他们按照所需要的格式提取出来,再进行必要的转换(统一数据格式)、清洗(去掉无效或者不需要的数据)等,最后装载进数据仓库(我们所说的ETL工具就是用来干这个的)。
这样,拿我们上面红牛的例子来说,所有的信息就统一放在了数据仓库中了。
自从数据仓库出现之后,信息产业就开始从以关系型数据库为基础的运营式系统慢慢向决策支持系统发展。
这个决策支持系统,其实就是我们现在说的商务智能(Business Intelligence)即BI。
可以这么说,数据仓库为OLAP解决了数据来源问题,数据仓库和OLAP互相促进发展,进一步驱动了商务智能的成熟,但真正将商务智能赋予“智能”的,正是我们现在热谈的下一代技术:数据挖掘。
2.3.2 数据仓库特点面向主题面向主题特性是数据仓库和操作型数据库的根本区别。
操作型数据库是为了支撑各种业务而建立。
而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立;所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
集成性集成性是指数据仓库会将不同源数据库中的数据汇总到一起;具体来说,是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
企业范围数据仓库内的数据是面向公司全局的。
比如某个主题域为成本,则全公司和成本有关的信息都会被汇集进来;历史性较之操作型数据库,数据仓库的时间跨度通常比较长。