数据仓库(Data Warehouse)简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
– Landing层一般可以理解为数据缓冲层,用来接收源数据,在一定 时间里Hold住源数据,一边后续处理,甚至重复处理,这些处理 可以完全独立于源系统。
数据仓库的设计
• 数据仓库的第一层——Landing层
– 这一步的要点:
• a)数据落地前后要保持一致性,避免对数据进行复 杂的处理,以保证数据的快速导入而尽量减少对业 务系统的压力,这就要求做好相应的审计工作。
数据仓库的设计
• 数据仓库的服务目标——用户业务层
– 数据仓库最底层的数据集市所形成的数据维度一般是 直接面向于业务需求的。比如某个报表的数据已经在 某个表中被统计好,可直接从表中获取,不必通过多 个表之间的关联而取得目标数据。这样就大大提升了 报表的性能。
– 数据集市的数据能具备良好的颗粒度,能极好的支持 商业决策、数据分析、数据挖掘等工作。
• 数据冗余、一致性
– 不同维度上的数据统计存在冗余现象,为了提高查询性能 – 不同维度表中的数据要保持一致 – 有时候数据的冗余为问题数据的查找提供了良好的条件。
数据仓库的要素
• 历史数据的维护
– 根据用户的业务需求,对历史数据做合理的维护,对不必要的历史数据进行 清理,以节省存储空间
• 增量的问题数据的处理
• b)landing表里要标明数据的来源库。
数据仓库的设计
• 数据仓库的第二步——Staging层
– Landing层到Staging层主要是对数据进行必要的 清洗工作。
– 数据从landing流入staging后数据要在landing层 清除。
数据仓库的设计
• 数据仓库第三层——Integration DW
• Dimension entity:维度数据。这里的维度要支持业务上的最细 粒度。要保证可以在最细粒度级别实现多维的分析。即能够支 持汇总数据以及明细数据的多维查询。
数据仓库的设计
• 数据仓库第四层——数据集市(Data Mart)
– 它是面向主题领域的专业的多维数据区。实现某一特定主题领域 的多维查询需求。这个部分也包括两个实体(FACT ENTITY和 DIMENSION ENTITY)两部分,但是与中央数据仓库不同的是这部 分的FACT ENTITY和DIMENSION ENTITY都是为某一主题服务的。
数据仓库的设计
• 零售业数据仓库样例
数据仓Байду номын сангаас的设计
• 数据仓库的第一层——Landing层
– 一般进入数据仓库的数据源是来自各个事实操作性系统,数据源 类型可以是不同格式的文本数据文件、存于不同后台库的表数据、 以及现在大数据要解决的一些非结构化数据(比如图片、视频) 等。
– 数据源导入到数据仓库的第一层,叫Landing层,也可以叫做贴源 层。
数据仓库(Data Warehouse)交流
• 数据仓库简介 • 数据仓库的设计 • 数据仓库的要素
数据仓库简介
• 什么是数据仓库
数据仓库,是在数据库已经大量存在的情况下,为 了进一步挖掘数据资源、为了决策需要而产生的, 它并不是所谓的“大型数据库”。数据仓库的方案 建设的目的,是为前端查询和分析作为基础,由于 有较大的冗余,所以需要的存储也较大。
– 当某条增量数据所在的维度值未能在数据仓库中找到时,将此增量数据HOLD, 待下一次导数据的时候再验证。
• 可拓展性
– 针对新的业务需求,可在现有模型上扩展出新的模块点
• 主要技术
– 并行、分区、数据压缩
数据仓库的要素
• 具备良好的命名习惯与严格的数据管控机制
– 数据仓库内所有的表命名要遵循唯一的规范标准, 最好能做到通过表名能知道表数据基于何种主题, 基于何种维度颗粒。
– 数据仓库表模型的更改要严格把控,这会对长期的 维护带来极大的方便,对性能的维持也会带来极大 的好处。
数据仓库简介
如果没有数据仓库
数据仓库简介
具备了数据仓库
数据仓库简介
• 数据仓库的主要特点
1. 数据仓库是面向主题的,操作型数据库的数据面向事务的,而数据仓库中的数 据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心 的重点方面,一个主题通常与多个操作型信息系统相关。 2. 集成性:数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将 所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入 数据仓库;数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上 经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据 仓库内的信息是关于整个企业的一致的全局信息。 3. 稳定性和时变性:存量的历史数据不会被频繁的更新,数据仓库不断接受增量 的数据。
– 什么是主题? • 主题和技术无关,是从业务角度出发,定义你分析的某个专业 方向,例如产品营销、物流、财务、HR、CRM等,这些业务板 块就是主题。
数据仓库的设计
• 数据的原子性
数据的原子性(atomic):数据的原子性指数据的 细化水平和粒度。数据的细化水平是原子性数据 水平,粒度是数据采集水平。
– 报表技术的应用,比如Cube。
数据仓库的要素
• 维度、模型
– 主要模型:星型模型、雪花模型 – 维度变化的维护:直接覆盖、保留旧值 – 最底层数据要跟报表维度一致,以提高数据的提取性能 – 时间戳的应用
• 血缘关系、元数据
– 不同层次的数据之间的血缘关系要明了,要具备优良的任务调度机制 (Control-M),方便问题数据的追踪;元素据描素要清楚明了。
– 该层作为数据仓库的集成部分,可以叫中央数 据仓库,包含两种实体数据:事实数据(fact entity)、维度数据(dimension entity)。
• Fact entity:它是对某个事物(可能是某一笔交易,某一个项目, 如一笔到货明细,某一个任务令)的各方面信息的描述,描述 行的属性包括:该事物各方面的度量信息,相关度量信息的维 度信息。
数据仓库简介
• 数据仓库的目的
构建数据仓库环境是为了有组织地存储来自源系统 的历史数据。业务系统是为了特定需求构建的,比 如销售点处理、计费系统、库存控制等待。这些系 统往往不是企业的基础系统,不是为了数据分析或 数据挖掘而构建的。因此,为了企业整体使用,必 须创建一个新的环境把这些系统的数据汇集到一个 集中式区域,即数据仓库系统。
数据仓库的设计
• 数据仓库的第一层——Landing层
– 这一步的要点:
• a)数据落地前后要保持一致性,避免对数据进行复 杂的处理,以保证数据的快速导入而尽量减少对业 务系统的压力,这就要求做好相应的审计工作。
数据仓库的设计
• 数据仓库的服务目标——用户业务层
– 数据仓库最底层的数据集市所形成的数据维度一般是 直接面向于业务需求的。比如某个报表的数据已经在 某个表中被统计好,可直接从表中获取,不必通过多 个表之间的关联而取得目标数据。这样就大大提升了 报表的性能。
– 数据集市的数据能具备良好的颗粒度,能极好的支持 商业决策、数据分析、数据挖掘等工作。
• 数据冗余、一致性
– 不同维度上的数据统计存在冗余现象,为了提高查询性能 – 不同维度表中的数据要保持一致 – 有时候数据的冗余为问题数据的查找提供了良好的条件。
数据仓库的要素
• 历史数据的维护
– 根据用户的业务需求,对历史数据做合理的维护,对不必要的历史数据进行 清理,以节省存储空间
• 增量的问题数据的处理
• b)landing表里要标明数据的来源库。
数据仓库的设计
• 数据仓库的第二步——Staging层
– Landing层到Staging层主要是对数据进行必要的 清洗工作。
– 数据从landing流入staging后数据要在landing层 清除。
数据仓库的设计
• 数据仓库第三层——Integration DW
• Dimension entity:维度数据。这里的维度要支持业务上的最细 粒度。要保证可以在最细粒度级别实现多维的分析。即能够支 持汇总数据以及明细数据的多维查询。
数据仓库的设计
• 数据仓库第四层——数据集市(Data Mart)
– 它是面向主题领域的专业的多维数据区。实现某一特定主题领域 的多维查询需求。这个部分也包括两个实体(FACT ENTITY和 DIMENSION ENTITY)两部分,但是与中央数据仓库不同的是这部 分的FACT ENTITY和DIMENSION ENTITY都是为某一主题服务的。
数据仓库的设计
• 零售业数据仓库样例
数据仓Байду номын сангаас的设计
• 数据仓库的第一层——Landing层
– 一般进入数据仓库的数据源是来自各个事实操作性系统,数据源 类型可以是不同格式的文本数据文件、存于不同后台库的表数据、 以及现在大数据要解决的一些非结构化数据(比如图片、视频) 等。
– 数据源导入到数据仓库的第一层,叫Landing层,也可以叫做贴源 层。
数据仓库(Data Warehouse)交流
• 数据仓库简介 • 数据仓库的设计 • 数据仓库的要素
数据仓库简介
• 什么是数据仓库
数据仓库,是在数据库已经大量存在的情况下,为 了进一步挖掘数据资源、为了决策需要而产生的, 它并不是所谓的“大型数据库”。数据仓库的方案 建设的目的,是为前端查询和分析作为基础,由于 有较大的冗余,所以需要的存储也较大。
– 当某条增量数据所在的维度值未能在数据仓库中找到时,将此增量数据HOLD, 待下一次导数据的时候再验证。
• 可拓展性
– 针对新的业务需求,可在现有模型上扩展出新的模块点
• 主要技术
– 并行、分区、数据压缩
数据仓库的要素
• 具备良好的命名习惯与严格的数据管控机制
– 数据仓库内所有的表命名要遵循唯一的规范标准, 最好能做到通过表名能知道表数据基于何种主题, 基于何种维度颗粒。
– 数据仓库表模型的更改要严格把控,这会对长期的 维护带来极大的方便,对性能的维持也会带来极大 的好处。
数据仓库简介
如果没有数据仓库
数据仓库简介
具备了数据仓库
数据仓库简介
• 数据仓库的主要特点
1. 数据仓库是面向主题的,操作型数据库的数据面向事务的,而数据仓库中的数 据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心 的重点方面,一个主题通常与多个操作型信息系统相关。 2. 集成性:数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将 所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入 数据仓库;数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上 经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据 仓库内的信息是关于整个企业的一致的全局信息。 3. 稳定性和时变性:存量的历史数据不会被频繁的更新,数据仓库不断接受增量 的数据。
– 什么是主题? • 主题和技术无关,是从业务角度出发,定义你分析的某个专业 方向,例如产品营销、物流、财务、HR、CRM等,这些业务板 块就是主题。
数据仓库的设计
• 数据的原子性
数据的原子性(atomic):数据的原子性指数据的 细化水平和粒度。数据的细化水平是原子性数据 水平,粒度是数据采集水平。
– 报表技术的应用,比如Cube。
数据仓库的要素
• 维度、模型
– 主要模型:星型模型、雪花模型 – 维度变化的维护:直接覆盖、保留旧值 – 最底层数据要跟报表维度一致,以提高数据的提取性能 – 时间戳的应用
• 血缘关系、元数据
– 不同层次的数据之间的血缘关系要明了,要具备优良的任务调度机制 (Control-M),方便问题数据的追踪;元素据描素要清楚明了。
– 该层作为数据仓库的集成部分,可以叫中央数 据仓库,包含两种实体数据:事实数据(fact entity)、维度数据(dimension entity)。
• Fact entity:它是对某个事物(可能是某一笔交易,某一个项目, 如一笔到货明细,某一个任务令)的各方面信息的描述,描述 行的属性包括:该事物各方面的度量信息,相关度量信息的维 度信息。
数据仓库简介
• 数据仓库的目的
构建数据仓库环境是为了有组织地存储来自源系统 的历史数据。业务系统是为了特定需求构建的,比 如销售点处理、计费系统、库存控制等待。这些系 统往往不是企业的基础系统,不是为了数据分析或 数据挖掘而构建的。因此,为了企业整体使用,必 须创建一个新的环境把这些系统的数据汇集到一个 集中式区域,即数据仓库系统。