银行业金融机构监管数据标准化规范
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
附件4
中国银监会
银行业金融机构监管数据标准化规范采集技术接口说明
2xx7年3月
文档概述
本文档定义依据《中国银监会银行业金融机构监管数据标准化规范》所采集数据的物理存储、传输形式,即数据的采集技术接口,包括承载数据的文件命名规则、字符集、行分隔符、数据项分隔符、缺省值要求和隐私保护要求等,以及集中采集和持续采集的模式(全量采集、增量采集、变化量采集)。技术接口的要求是强制性的。
本文档还给出了采集频率、报送介质的参考性要求,包括持续采集的频度,集中采集和持续采集采用的介质。非技术接口的要求是参考性的,监管部门可根据辖区实际条件自主确定或调整。
技术接口要求
文件格式
UTF-8编码(无BOM)的纯文本文件,扩展名为.txt。
文件命名
原则上每个数据表生成一个数据文件,文件命名规则是:机构代码-表名对应字符串-YYYYMMDD.txt,其中分隔符“-”为英文短横线(ASCII码0x2D),“YYYYMMDD”含义同“采集日期”数据项,为本次/本期采集的截至日期。表名对应字符串见表1,如中国工商银行股份有限公司报送截至2xx7年3月31日的机构信息表数据时,文件名称应为:
BxxxxHxx1xxxxxx-JGXXB-2xx7xx31.txt
每一个数据文件要同时生成一个同名的数据校验文件,数据校验文件的编码格式同数据文件,后缀名为.log,数据校验文件需要包含以下5行信息,定义如下:
文件名
文件大小(字节)
文件创建完成时间(YYYY-MM-DD HH:MM:SS)
文件是否正常生成(Y或N)
文件记录数(行数)
例如:
BxxxxHxx1xxxxxx-JGXXB-2xx7xx31.txt
8xx96
2xx7-xx-xx xx:29:xx
Y
6761
表1 表名与字符串对应表
数据项分隔与特殊字符处理
行分隔符:数据文件的一行数据对应一条数据库记录,各行之间分隔符为UNIX样式的换行符(ASCII 码0x0A)。
数据项分隔符:数据项之间以^A(SOH,ASCII码0xxx)进行分隔,每行末尾不需要添加数据项分隔符。
数据项首尾禁止使用双引号(ASCII码0x22)包夹,但数据项内容可以有双引号,且不需要进行转义。数据项内子项分隔符:单个数据项中需要填报多个子项内容时,子项内容之间使用英文分号“;”(ASCII 码0x3B)隔开。如“归属业务子类”,同时归属子类为“2投资”和“xx理财业务”时,用“2;xx”表示。
在数据项中不允许出现ASCII码为0xxx~0x1F、0x7F的各类控制字符和非可打印字符;若出现则统一替换为空格(ASCII码0x20)。
空值与默认值处理
当如下数据类型出现空值时,按默认值填写,处理方式为:
字符类型——默认值设为空,即什么都不填
日期类型——默认值设为9999xx31
年月类型——默认值设为9999xx
时间类型——默认值设为xxxxxx
时间戳类型——默认值设为9999xx31xxxxxxxxxxxx
数字类型——默认值设为0
隐私保护说明
涉及个人隐私数据的数据项详见《中国银监会银行业金融机构监管数据标准化规范》及其报送说明,由银行机构在报送前进行脱敏处理,并保留一份未脱敏版本以备核查。脱敏规则如下:
1. 个人身份证件号码:
若身份证件号码中有英文字母,应先统一转换成大写英文字母;
变形后的身份证件号码(38字符)= 身份证件号码前6字节(6个英文字符/数字,或2个汉字,或1个汉字+3个英文字符/数字)+ MD5(身份证件号码全文UTF-8编码)(32字符,英文按小写输出)
例:
xx位公民身份号码:33xxxxxx8xx2xxxx1X,变形后:
33xxxx68xx228769xx42b48cbc3ae8b7xx50a7
xx位公民身份号码:33xxxx8xx2xxxx1,变形后:
33xxxxb88ce0d0e99298c2244xx4xxdb399920
军官证/武警部队警官证:参字第xx34567号,变形后:
参字e54977d990baa7a80b5fb794d622444d
护照:Exx345678,变形后:
Exx345dxxf3cf86bb4xxa9xxf98df6373eb1ac
2. 包含个人身份证件号码的客户统一编号:
若身份证件号码中有英文字母,应先统一转换成大写英文字母;
将身份证件号码部分用身份证件号码全文UTF-8编码的MD5杂凑值替换,其余部分不变。
3. 客户名称和所有对方户名信息:
三个汉字以内(包含三个汉字)的名称,做有限暴露方式的脱敏处理,只保留最后一个字,其余长度的名称不变形。银行机构员工和业务办理人员、自然人股东、单位负责人姓名不变形。
采集模式
数据表根据性质,可以分为状态类和明细类两种。其中明细类包括:总账会计全科目表、各分户账明细记录、信用卡交易明细记录、交易流水、资产负债科目统计表、涉农统计表、资金交易信息表、汇率信息表、理财产品销售明细记录;其他表属于状态类。
1. 集中采集
集中采集时,所有状态类表采用全量采集,指采集时间段内所有发生业务及存续数据在采集截至时间点上的状态,不追溯采集时间段前已结清业务在采集截至时间点上的状态。例如,集中采集时间段为2xx6年1月1日至2xx6年xx月31日,则2xx6年关停的分支机构、离职的员工、注销的账户分别应当报送一条状态为“停业”、“离职”、“销户”的记录,包括2xx6年开户又销户的账户;而2xx5年关停的分支机构、离职的员工、注销的账户均不在采集范围内。明细类表按照集中采集通知定义的时间范围采集具体时间段内所有数据。
2. 持续采集
持续采集模式详见表2,监管部门可根据辖区实际条件自主确定或调整。其中:
全量:指当期所有发生业务及存续数据在当期截至时间点上的状态,即使较前一期无任何变化也要报送,不追溯采集时间段前已结清业务在采集截至时间点上的状态;
增量:较前一次采集仅有增加的数据,无对前期数据更新、删除的情况,例如流水的增加属于增量数据,而分支机构名称变更则属于变化量数据(见以下说明)的更新部分;
变化量:较前一次采集有变更的记录,包括新增、更新、删除。其中,“删除”可以理解为将原记录“更新”为一条表示状态的数据项值置为“无效”或同等含义的新记录,并以“采集日期”区分原记录。例: