数仓分层级各层设计要点

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

枚举值标准化,有些枚举值只有名称没有ID,有些枚举值在不同表中定义不一致,有些存在空值等情况,需要在DWD层
7
进行标准化转换和改写工作
4
专业 智享
让共享变的很简单
THANKS!
简称操作数据层,该层级主要功能是存储从源系统直接获得的 数据(数据从数据结构、数据之间的逻辑关系上都与源系统基 本保持一致)。实现某些业务系统字段的数据仓库技术处理、 少量的基础的数据清洗(比如脏数据过滤、字符集转换、维值 处理)、生成增量数据表
2
专业 智享
3 ODS层设计要点
让共享变的很简单
表名按照数据仓库ODS表名命名的规范进行统一命名,表名中表明数据采集周期,以及增量 or 全量; 1
简称数据明显层,该层的主要功能是基于主题域的划分,面向 业务主题、以数据为驱动设计模型,完成数据整合,提供统一 的基础数据来源。在该层级完成数据的清洗、重定义、整合分 类功
简称维度层,该层主要存储简单、静态、代码类的维表,包括 从OLTP层抽取转换维表、根据业务或分析需求构建的维表以及 仓库技术维表如日期维表等
屏蔽业务系统一些技术原因的变化,比如业务系统架构调整,存在新老两个版本的同一个订单表,DWD应该将其集成为 5
一个订单表,数据下游用户不需要了解业务无关的技术架构变更细节
屏蔽业务系统一些技术原因的变化,比如业务系统架构调整,存在新老两个版本的同一个订单表,DWD应该将其集成为
6
一个订单表,数据下游用户不需要了解业务无关的技术架构变更细节
简称数据集市层,该层次主要功能是加工多维度冗余的宽表 (解决复杂的查询)、多角度分析的汇总表
简称汇总数据层,面向分析主题的、统一的数据访问层,所有 的基础数据、业务规则和业务实体的基础指标库以及多维模型 都在这里统一计算口径、统一建模,大量基础指标库以及多维 模型在该层实现。该层级以分析需求为驱动进行模型设计,实 现跨业务主题域数据的关联计算或者轻度汇总计算,因此会有 大数据量的多表关联汇总计算
5
Leabharlann Baidu
低数据采集工作的复杂性。
3
专业 智享
4 ODS层设计要点
让共享变的很简单
1
表名按照数据仓库DWD表名命名的规范进行统一命名,表名中表明数据生成周期,以及增量 or 全量
2
清洗掉测试数据、软删除数据
删除完全没有统计意义的一些列 3
规范化字段命名,比如源数据不同表中,用户ID可能既有uid,也有 userid,user_id的命名,应该改为一致 4
如果线上对同一逻辑数据库表进行了分库分表,建议合并到同一个Hive ODS表; 2
如果是数据库数据源,将数据源的数据类型按照统一规范映射成Hive数据类型; 3
如果是数据库数据源,字段命名建议采用数据源字段名; 4
类json格式日志有数据变更灵活、频繁的特征,不建议在ODS层解析成一个一个字段,建议采用hive map格式存储,降
专业 智享
让共享变的很简单
数据仓库分层及各层设计要点
专业 智享
1 数据仓库层次结构
让共享变的很简单
专业 智享
2 数据仓库层次介绍
层次结构
APP层 DM层
DWM层
DWD层 DIM层 ODS层
让共享变的很简单
详细介绍
简称数据应用层,该层级的主要功能是提供差异化的数据服务、 满足业务方的需求;在该层级实现报表(数易、邮件报表)、 自助取数等需求
相关文档
最新文档