ETL数据采集与接口规范2014-05-12
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. 数据入库端接口定义及规范
数据入库端接口,即ETL装载数据时需要的数据种类及格式,无论源数据是以何种形 式存在:数据库中的存储格式、文件格式或其他,都必须按照本章节描述的接口规范在数 据采集端形成对应列格式的数据文件,然后再通过数据传输工具传输到入库端。
3.1. 数据入库端接口表清单
序号
名称
1
零售商门店资料
ETL数据采集与接口规范
第 1 页/共 11页
ETL数据采集与接口规范
目录
1.
文档概述 ..........................................................................................................3
类型
varchar(32) varchar(32) varchar(32)
类型说明 可空否
描述
零售商编码,吉信佳提供,部
字符型
否
署ETL时设置
字符型
否
零售商类别编码
字符型
否
零售商类别名称
名称
bizSupplyID BizstoreID name
中文说明
类型
零售商内部的供应商编 码
varchar(32) not null
3.
数据入库端接口定义及规范 ..........................................................................5
3.1. 数据入库端接口表清单...........................................................................................................5 3.2. 接口表数据结构.......................................................................................................................5
2
类别资料
3
零售商内部供应商资料
4
采购订单
5
收货单
6
退货通知单
7
退货单
8
结算通知单
9
ห้องสมุดไป่ตู้
分店库存数据
10 分店销售数据
采集要求
每日采集 每日采集 每日采集 每日采集 每日采集 每日采集 每日采集 每日采集 每日采集 每日采集
文件名标准
零售商_采集点_shop_日期(年月日) 零售商_采集点_dept_日期(年月日) 零售商_采集点_ supply _日期(年月日) 零售商_采集点_purchase_日期(年月日) 零售商_采集点_mainbase_日期(年月日) 零售商_采集点_retask_日期(年月日) 零售商_采集点_ret_日期(年月日) 零售商_采集点_billhead_日期(年月日) 零售商_采集点_shopstockvalue_日期(年月日) 零售商_采集点_shopsalevalue_日期(年月日)
链接配置:配置需要链接的目标数据库的数据库类型、链接的IP地址、数据库用户名 和密码;
脚本编写以及植入:可手工编写SQL语句或存储过程,然后将脚本植入到ETL数据入库 端中;
数据文件接收及装载:接收采集端上传的数据文件,解析并装载到原始数据库; 数据装载策略:设定每个零售商每个采集点每种业务类型的转入周期;设定每种业务 类型的转入顺序,转入时必须按设定的业务类型转入顺序执行,当执行的业务类型文件不 存在时,需进行等待,不允许跳过某种业务类型;同一种业务类型,零售商所有的采集点 数据都采集完成才可开始执行该零售商此种业务类型的转入; 运行监控:监控数据采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等 ;
第 3 页/共 11页
ETL数据采集与接口规范
基本信息配置:设置零售商(合作伙伴)编码与名称,设置ETL系统采集端编码; 导出文件配置:导出文件的保存路径、数据文件名、数据文件列分隔符、导出文件的 编码格式,目前数据文件默认为文本文件方式; 链接配置:配置需要链接的零售商数据库的数据库类型、链接的IP地址、数据库用户 名和密码;配置对应的ETL系统入库端的链接地址、用户名及密码; 数据集配置:配置需要提取的数据集清单与每种数据集的采集周期(比如年、月、日 等); 脚本编写及植入:可手工编写数据提取的SQL语句或存储过程,然后将脚本植入到数 据采集单元中; 运行监控:监控数据采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等 ; 数据打包上传:对已经提取的数据进行加密、打包且上传到数据加载单元; 为保证数据采集的及时性、准确性,需要根据零售商机房环境和数据库种类的不同, 为数据采集单元设计不同的部署方式。 数据采集单元部署在零售商的机房,需要注意以下问题: 根据机房环境,设计如何接入互联网的方案; 数据采集单元通过VPN连入吉信佳数据中心(厦门)的外联区域; 为达到免责目的,数据采集单元务必独立于零售商的硬件设备; 合理设计数据采集单元相对于防火墙的位置; 在一般情况下,采用远程桌面方式执行日常维护;在异常情况下,建议当地的维
字符型
否
零售商内部供应商编码 varchar(32)
字符型
否
订单的收货地编码
varchar(32)
字符型
否
零售商品类编码
varchar(16)
字符型
否
确认到零售商最小类别编码
采购订单号
varchar(32)
关闭日期
address
门店地址
类别资料:
类型
类型说明 可空否
描述
char(32)
零售商编码,吉信佳提供,部
字符型
否
署ETL时设置
varchar(32)
字符型
否
varchar(128) 字符型
否
使用标准行政全称,省字省
varchar(128) 字符型
是
略。例:广东省,为广东
使用标准行政全称,市字省
varchar(128) 字符型
status
cleardate areaname registeredno licenseno SourceSysID SourceSupplyID
ETL数据采集与接口规范
称
not null
地址
varchar(255) 字符型
是
电话
varchar(32)
字符型
是
传真
varchar(32)
字符型
是
邮箱
字符型
是
第三方系统的供应商ID varchar(32)
字符型
是
采购订单:
表示供应商的状态,0=正 常 99=清场/淘汰
可不填 可不填
名称
BizstoreID bizSupplyID shopid deptid sheetid
SheetStatus
中文说明
类型
类型说明 可空否
描述
零售商编码
char(32)
第 5 页/共 11页
3.2. 接口表数据结构
零售商门店资料:
ETL数据采集与接口规范
名称
中文说明
BizstoreID shopid name provincename
零售商编码 在零售商的门店编码 在零售商的门店名称 省份名称
cityname
城市名称
status
门店状态
opendate
开业日期
closedate
是
内部级别编码
varchar(32)
字符型
是
integer
状态
NOT NULL
整数值
否
DEFAULT 0
清场日期
date
日期型
是
注册区域名称(地级市名
varchar(32)
字符型
是
称)
营业执照号
varchar(32)
字符型
是
工商注册号
varchar(32)
字符型
是
第三方系统ID
varchar(32)
2. ETL系统描述
2.1. 总体架构
ETL系统由数据采集端、数据传输(以VPN为载体)、数据入库端三部分构成,三者 的关系如下图所示:
2.2. 构成描述
ETL主要由ETL系统采集端、数据传输、ETL数据入库端三个单元构成,每个单元功能 如下:
2.2.1. ETL系统采集端
即数据采集单元,是数据转出客户端,是与零售商数据库服务器相连的负责采集相关 数据的单元,一方链接数据库,一方链接VPN,如源数据库为多个,则ETL系统采集端部 署多个与源数据库对应。ETL系统采集端功能如下:
2.
ETL系统描述 ...................................................................................................3
2.1. 总体架构...................................................................................................................................3 2.2. 构成描述...................................................................................................................................3
否
略。例:深圳市,为深圳
integer
门店状态(0=正常
DEFAULT 0 整数型
否
99=关闭)
NOT NULL
DATE
日期型
是
开业日期
DATE
日期型
是
关闭日期
varchar(128) 字符型
是
名称
中文说明
BizstoreID
零售商编码
deptid deptname
零售商类别编码 零售商类别名称
零售商内部供应商资料:
4.
ETL系统采集端硬件配置建议 .....................................................................10
第 2 页/共 11页
ETL数据采集与接口规范
1. 文档概述
ETL系统是链接源数据中心(零售商、合作伙伴)与吉信佳数据中心的桥梁,主要任 务是完成业务数据的抽取、传输与转换、清洗与装载。本文档主要描述ETL的构成、数据 接口清单、数据结构定义。
2.2.3. ETL数据入库端
负责接收ETL数据传输单元上传的数据,并且装载到对应的原始数据库中预制的接口 表中,功能如下:
第 4 页/共 11页
ETL数据采集与接口规范
数据采集端注册:对链接到本入库端的采集端进行注册,只接收已经注册的ETL数据 采集端上传的数据文件;
导入文件配置:要导入的文件所在目录、数据文件名、数据文件列分隔符、导出文件 的编码格式;
护团队介入。
2.2.2. ETL数据传输
ETL数据传输的功能是将采集端转出且保存到固定目录中的数据文件通过VPN传输到 数据入库端,功能如下:
链接配置:配置远程数据入库端的主机地址、用户以及密码、数据文件存放目录等; 备份策略:数据发送或者接收完成后是否需要备份数据文件以及备份目录; 运行监控:监控数据采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等 ; 数据发送和接收:负责数据的发送和接收;
varchar(128) 字符型
是
varchar(32)
法人代表/联系人
NOT NULL
字符型
否
DEFAULT '-'
varchar(128)
纳税号
NOT NULL
字符型
否
DEFAULT '-'
varchar(64)
企业编码(机构代码证) NOT NULL
字符型
否
DEFAULT '-'
经营范围
varchar(128) 字符型
2.2.1. ETL系统采集端..................................................................................................3 2.2.2. ETL数据传输 .....................................................................................................4 2.2.3. ETL数据入库端..................................................................................................4
零售商编码
varchar(32)
零售商内部的供应商名 varchar(128)
类型说明 可空否
描述
字符型
否
零售商编码,吉信佳提供,部
字符型
否
署ETL时设置
字符型
否
第 6 页/共 11页
address phone fax email
legaler
taxno
enterprisecode
bizscope levelcode
数据入库端接口,即ETL装载数据时需要的数据种类及格式,无论源数据是以何种形 式存在:数据库中的存储格式、文件格式或其他,都必须按照本章节描述的接口规范在数 据采集端形成对应列格式的数据文件,然后再通过数据传输工具传输到入库端。
3.1. 数据入库端接口表清单
序号
名称
1
零售商门店资料
ETL数据采集与接口规范
第 1 页/共 11页
ETL数据采集与接口规范
目录
1.
文档概述 ..........................................................................................................3
类型
varchar(32) varchar(32) varchar(32)
类型说明 可空否
描述
零售商编码,吉信佳提供,部
字符型
否
署ETL时设置
字符型
否
零售商类别编码
字符型
否
零售商类别名称
名称
bizSupplyID BizstoreID name
中文说明
类型
零售商内部的供应商编 码
varchar(32) not null
3.
数据入库端接口定义及规范 ..........................................................................5
3.1. 数据入库端接口表清单...........................................................................................................5 3.2. 接口表数据结构.......................................................................................................................5
2
类别资料
3
零售商内部供应商资料
4
采购订单
5
收货单
6
退货通知单
7
退货单
8
结算通知单
9
ห้องสมุดไป่ตู้
分店库存数据
10 分店销售数据
采集要求
每日采集 每日采集 每日采集 每日采集 每日采集 每日采集 每日采集 每日采集 每日采集 每日采集
文件名标准
零售商_采集点_shop_日期(年月日) 零售商_采集点_dept_日期(年月日) 零售商_采集点_ supply _日期(年月日) 零售商_采集点_purchase_日期(年月日) 零售商_采集点_mainbase_日期(年月日) 零售商_采集点_retask_日期(年月日) 零售商_采集点_ret_日期(年月日) 零售商_采集点_billhead_日期(年月日) 零售商_采集点_shopstockvalue_日期(年月日) 零售商_采集点_shopsalevalue_日期(年月日)
链接配置:配置需要链接的目标数据库的数据库类型、链接的IP地址、数据库用户名 和密码;
脚本编写以及植入:可手工编写SQL语句或存储过程,然后将脚本植入到ETL数据入库 端中;
数据文件接收及装载:接收采集端上传的数据文件,解析并装载到原始数据库; 数据装载策略:设定每个零售商每个采集点每种业务类型的转入周期;设定每种业务 类型的转入顺序,转入时必须按设定的业务类型转入顺序执行,当执行的业务类型文件不 存在时,需进行等待,不允许跳过某种业务类型;同一种业务类型,零售商所有的采集点 数据都采集完成才可开始执行该零售商此种业务类型的转入; 运行监控:监控数据采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等 ;
第 3 页/共 11页
ETL数据采集与接口规范
基本信息配置:设置零售商(合作伙伴)编码与名称,设置ETL系统采集端编码; 导出文件配置:导出文件的保存路径、数据文件名、数据文件列分隔符、导出文件的 编码格式,目前数据文件默认为文本文件方式; 链接配置:配置需要链接的零售商数据库的数据库类型、链接的IP地址、数据库用户 名和密码;配置对应的ETL系统入库端的链接地址、用户名及密码; 数据集配置:配置需要提取的数据集清单与每种数据集的采集周期(比如年、月、日 等); 脚本编写及植入:可手工编写数据提取的SQL语句或存储过程,然后将脚本植入到数 据采集单元中; 运行监控:监控数据采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等 ; 数据打包上传:对已经提取的数据进行加密、打包且上传到数据加载单元; 为保证数据采集的及时性、准确性,需要根据零售商机房环境和数据库种类的不同, 为数据采集单元设计不同的部署方式。 数据采集单元部署在零售商的机房,需要注意以下问题: 根据机房环境,设计如何接入互联网的方案; 数据采集单元通过VPN连入吉信佳数据中心(厦门)的外联区域; 为达到免责目的,数据采集单元务必独立于零售商的硬件设备; 合理设计数据采集单元相对于防火墙的位置; 在一般情况下,采用远程桌面方式执行日常维护;在异常情况下,建议当地的维
字符型
否
零售商内部供应商编码 varchar(32)
字符型
否
订单的收货地编码
varchar(32)
字符型
否
零售商品类编码
varchar(16)
字符型
否
确认到零售商最小类别编码
采购订单号
varchar(32)
关闭日期
address
门店地址
类别资料:
类型
类型说明 可空否
描述
char(32)
零售商编码,吉信佳提供,部
字符型
否
署ETL时设置
varchar(32)
字符型
否
varchar(128) 字符型
否
使用标准行政全称,省字省
varchar(128) 字符型
是
略。例:广东省,为广东
使用标准行政全称,市字省
varchar(128) 字符型
status
cleardate areaname registeredno licenseno SourceSysID SourceSupplyID
ETL数据采集与接口规范
称
not null
地址
varchar(255) 字符型
是
电话
varchar(32)
字符型
是
传真
varchar(32)
字符型
是
邮箱
字符型
是
第三方系统的供应商ID varchar(32)
字符型
是
采购订单:
表示供应商的状态,0=正 常 99=清场/淘汰
可不填 可不填
名称
BizstoreID bizSupplyID shopid deptid sheetid
SheetStatus
中文说明
类型
类型说明 可空否
描述
零售商编码
char(32)
第 5 页/共 11页
3.2. 接口表数据结构
零售商门店资料:
ETL数据采集与接口规范
名称
中文说明
BizstoreID shopid name provincename
零售商编码 在零售商的门店编码 在零售商的门店名称 省份名称
cityname
城市名称
status
门店状态
opendate
开业日期
closedate
是
内部级别编码
varchar(32)
字符型
是
integer
状态
NOT NULL
整数值
否
DEFAULT 0
清场日期
date
日期型
是
注册区域名称(地级市名
varchar(32)
字符型
是
称)
营业执照号
varchar(32)
字符型
是
工商注册号
varchar(32)
字符型
是
第三方系统ID
varchar(32)
2. ETL系统描述
2.1. 总体架构
ETL系统由数据采集端、数据传输(以VPN为载体)、数据入库端三部分构成,三者 的关系如下图所示:
2.2. 构成描述
ETL主要由ETL系统采集端、数据传输、ETL数据入库端三个单元构成,每个单元功能 如下:
2.2.1. ETL系统采集端
即数据采集单元,是数据转出客户端,是与零售商数据库服务器相连的负责采集相关 数据的单元,一方链接数据库,一方链接VPN,如源数据库为多个,则ETL系统采集端部 署多个与源数据库对应。ETL系统采集端功能如下:
2.
ETL系统描述 ...................................................................................................3
2.1. 总体架构...................................................................................................................................3 2.2. 构成描述...................................................................................................................................3
否
略。例:深圳市,为深圳
integer
门店状态(0=正常
DEFAULT 0 整数型
否
99=关闭)
NOT NULL
DATE
日期型
是
开业日期
DATE
日期型
是
关闭日期
varchar(128) 字符型
是
名称
中文说明
BizstoreID
零售商编码
deptid deptname
零售商类别编码 零售商类别名称
零售商内部供应商资料:
4.
ETL系统采集端硬件配置建议 .....................................................................10
第 2 页/共 11页
ETL数据采集与接口规范
1. 文档概述
ETL系统是链接源数据中心(零售商、合作伙伴)与吉信佳数据中心的桥梁,主要任 务是完成业务数据的抽取、传输与转换、清洗与装载。本文档主要描述ETL的构成、数据 接口清单、数据结构定义。
2.2.3. ETL数据入库端
负责接收ETL数据传输单元上传的数据,并且装载到对应的原始数据库中预制的接口 表中,功能如下:
第 4 页/共 11页
ETL数据采集与接口规范
数据采集端注册:对链接到本入库端的采集端进行注册,只接收已经注册的ETL数据 采集端上传的数据文件;
导入文件配置:要导入的文件所在目录、数据文件名、数据文件列分隔符、导出文件 的编码格式;
护团队介入。
2.2.2. ETL数据传输
ETL数据传输的功能是将采集端转出且保存到固定目录中的数据文件通过VPN传输到 数据入库端,功能如下:
链接配置:配置远程数据入库端的主机地址、用户以及密码、数据文件存放目录等; 备份策略:数据发送或者接收完成后是否需要备份数据文件以及备份目录; 运行监控:监控数据采集的过程,日志自动保存与输出、报错提醒(邮件\短信等)等 ; 数据发送和接收:负责数据的发送和接收;
varchar(128) 字符型
是
varchar(32)
法人代表/联系人
NOT NULL
字符型
否
DEFAULT '-'
varchar(128)
纳税号
NOT NULL
字符型
否
DEFAULT '-'
varchar(64)
企业编码(机构代码证) NOT NULL
字符型
否
DEFAULT '-'
经营范围
varchar(128) 字符型
2.2.1. ETL系统采集端..................................................................................................3 2.2.2. ETL数据传输 .....................................................................................................4 2.2.3. ETL数据入库端..................................................................................................4
零售商编码
varchar(32)
零售商内部的供应商名 varchar(128)
类型说明 可空否
描述
字符型
否
零售商编码,吉信佳提供,部
字符型
否
署ETL时设置
字符型
否
第 6 页/共 11页
address phone fax email
legaler
taxno
enterprisecode
bizscope levelcode