污染源数据中心数据库设计步骤.

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据中心数据结构设计流程

一 . 源系统业务分析

1、对源系统的分析这里包括了源数据业务逻辑、数据实体表, 综表的分析。本阶段工作任务主要是:了解数据源结构及其语义和字典对应关系, PDM 里的Annotation 属性里记录源表对应关系。

2、去除与数据中心无关的非业务数据表 :如统计数据表, 用户信息和系统管理信息、日志操作记录等相关的表, 或者一些非历史数据表, 临时数据表。

3、对源数据库结构表进行分类,建立新包 Packet :主要可以分为基本表和综表 , 字典表三大类表。

4、统一表属性语义 :对不同的对不同数据源的相同语义不同表示进行统一, 并对代码进行调整。

二. 建立数据中心表

1、数据库物理模型建立,根据源表结构分析,确立数据库分类包结构,确立数据中心数据库结构命名规范。

2、数据中心字典表合并或变更,找出公共的字典表,并作记录,将公共的字典表放入数据中心字典表。其余不是公共的,为各个业务系统独有字典作为一个表单独包处理。

2.1 确立源字典表与数据中字典表对应关系。

2.2 检查字典表是否有相应标准,有标准则确定标准字典清洗规则,没有则直接清洗。

3、数据中心业务结构调整

3.1调整与数据源业务表对应关系 , 根据需要拆分或者合并业务表, 调整与数据源结构的对应关系 , 如果是字典字段的 , 重新调整为与数据中心字典表的对应。

3.2 为数据中心新表及字段按照步骤 1定义的规范重新命名。命名尽可能是唯一性,即同一个语义的字段名称应该尽量只是一个字段 Code 。

3.3 在数据中心新业务表中增加数据中心需要用到的字段属性:如同步信息:业务系统 ID (业务主键、同步时间,分区用信息:年度时间,及代理主键等。

3.4 调整数据中心表关系关联 , 将表关联的名称更新为中文将Annotation,Description 等信息写入 Comment 。

3.5 生成与数据源结构的对应关系及对应规则,并将结果导入到 Excel 表。如果对应关系或对应入库规则有错,则修改 Comment 对应的属性,通过 comment 反写入Anntotation 或 Description 。

3.6 数据库物理属性设计:包括建立数据库分区及数据库索引等。

三、生成 SQL 脚本,同时产生数据结构关系对应配置表。

1. 产生数据库脚本及入库规则版本。

2. 验证 SQL 脚本,如果有错,则排查错误,返回相应的步骤继续;如果没错则将SQL 脚本及其对应关系交付 ETL 数据清洗组。

污普利用数据库设计流程

一、确立污普利用数据库设计规范及表结构命名规则,如维度表需以 Dim 开头, 事实表需以 Fact 开头。

二、根据数据中心字典表建立污普利用维度表:包括对维度表的分类, 如分为公共维度表、某主题维度表并生成相应的对应关系等。根据需求删除不必要的字段或其他属性,根据 1中的规范为维度表命名。

三、根据数据中心业务表建立污普利用事实表。

1. 建立事实表,根据数据中心业务表业务分类,为事实表分主题并建立相应的Packet 。

2. 根据需求删除不必要的字段或者其他属性。根据步骤 1的命名规范给事实表表名称及字段属性重新命名。

3. 建立事实表的关联属性,并确定事实表的与数据中心表的对应关系。

4. 生成与数据中心结构对应关系并导出到 Excel 表。检查对应关系表,如果有问题继续回到步骤 3.3,果没有问题,则继续下一个步骤。

5. 为新的污普利用表结构设计索引,分区等物理属性,然后生成 SQL 脚本。

6. 验证 SQL 脚本,如果有错,排查错误,转向相应的步骤;如果没错,则交付 ETL 数据清洗小组,整个设计流程结束。

相关文档
最新文档