数据仓库开发规范
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据仓库设计与开发规范1概述
2数据仓库设计规范
2.1命名规范
数据仓库库表的命名规范
命名规范
➢RAW表:RAW+源表名称
➢中间表:MID+源表名称
➢如果表名字符长度超过32位,则在源表名称中英文字母缩写替换英文单词表字段命名规范
命名规范
数据库字段的命名必须遵循以下规范:
➢采用有意义的字段名。字段的名称必须是易于理解,能表达字段功能的英文单词或缩写英文单词,无论是完整英文单词还是缩写英文单词,单词首
字母必须大写。
➢系统中属于是业务范围内的编号的字段,其代表一定的业务信息,这样的字段建议命名为:
代表当前这字段含意的英文单词+ “ID”
➢尽量遵守第三范式的标准(3NF)。
✧表内的每一个值只能被表达一次
✧表内的每一行都应当被唯一的标示
✧表内不应该存储依赖于其他键的非键信息
存储过程命名规范
命名规范
➢存贮过程的命名请遵循以下命名规范:P_ MID_+ 业务逻辑(英文单词或缩写)如:P_MID_PUB_TRADE_BUY
设计规范
在存贮过程中必须说明以下内容:
➢名称:存贮过程。
➢描述:描述存储过程的作用
➢创建者:首次创建此存贮过程的人的姓名。在此请使用中文全名,不允许使用英文简称。
➢修改者、修改日期、修改原因:如果有人对此存贮过程进行了修改,则必须在此存贮过程的前面加注修改者姓名、修改日期及修改原因。
➢对存贮过程各参数及变量的中文注解。
示例如下:
-- =============================================
-- procedurename: P_MID_PUB_TRADE_BUY
-- description : 公募交易表
-- author : 张三
-- create date : 2015-07-17
--source_table : raw_tp_dis_trade_app_rec
--target_table : MID_PUB_TRADE_BUY
--modified :修改日期:2015-07-20 修改原因及内容
-- =============================================
视图命名规范
命名规范
➢视图的命名请遵循以下命名规范:V_ +_操作的表名(不带前缀)或功能的英文单词或英文单词缩写。如:V_ac_cust_info
2.2版本管理规范
3数据仓库开发规范3.1Kettle规范
1 Trans命名规范
trans名称:以存储过程名称名称
Example:SP_ETL_MID_BANKCARD_VRFY_OK
2 Job命名规范
粒度最细的job Job注释
Job名称:项目名称+功能
Example:GMTJ_BANKCARD_FIRST_INFO
主Job
Job名称:项目名称+功能+MAIN Example:GMTJ_DAILY_KAIHU_MAIN
注意:TRANS和JOB的命名英文字母统一大写
3 kettle资源库目录规范
Job存储位置:/ETL_REPOS/JOB/数据库层级(mid/raw)/具体JOB trans存储位置:/ETL_REPOS/TRANS/数据库层级(mid/raw)/具体TRANS
4 192.168.220.220 kettle(非kettle集群)
监控与日志
DB中2张表:
META_JOB_LOG
META_TRANS_LOG
日志在运行job时> /data/app/datax-etl/etl-repos/log/xxx.log 2>&1 &
可以记录错误
邮件:
配置邮件,发给负责人可以监控job。
4元数据管理规范
所有在本地导出的xml文件需上传到SVN目录中
XML文件命名规范:项目名称.xml
Example:GMTJ.XML
目录:
svn://192.168.220.100/usr/local/subversion-1.4.4/repos/CRM/trunk/bi/e tl-repos
5 ETL开发流程
针对公募统计日报为例
测试环境(本地)
TRANS:
目前标注部分功能技术实现还在研究中。JOB: