数据质量管理浅谈
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据质量管理浅谈
数据质量管理浅谈
引言
数据和信息是21世纪的经济命脉。在信息时代,数据被认为是一项重要的企业资产。
那么有了数据是不是就可以直接转换成价值了呢?答案是否定的。
企业需要对数据进行提炼和加工,最终形成需要的信息,才能用于支持日常的经营与
决策。
数据经过加工形成的信息是否客观地反映了企业的真实情况,这又取决于另外一项东西——数据质量。
金融企业具有与传统企业不一样的特征。它需要每日,甚至每时每刻对各类经营指标
进行监控和计算,这就需要有更高的数据准确性和及时性进行支撑。因此它对数据质量的
敏感度、依赖度比传统企业更高。
证券行业作为金融行业的重要组成部分,数据质量的重要性不言而喻。那么证券公司
应该如何应对数据质量问题?本文将简要介绍什么是数据、什么是数据质量、常见的数据
质量评估维度、证券公司如何应对数据质量问题等内容。
什么是数据数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的
符号。
它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位臵及其相互关系的抽象表示。
例如,“0、1、2...`”、“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。数据经过加工后就成为信息。
本文所谈的数据主要指存在于IT 系统中的,以计算机存储设备为载体的信息集合。
什么是数据质量数据质量是描述数据价值含量的指标。就像铁矿石的质量,矿石的
质量高,则炼出来的钢材就会多;反之,矿石的质量低,不但练出来的钢材少了,同时也
增加了提炼的成本。
常见的数据质量评估维度
1. 完整性
用来描述信息的完整程度。
例如:某公司的人力资源系统中有100名员工信息,其中有50个员工中没有记载联系电话,这说明该公司人力资源系统的客户联系电话信息存在完整性问题。
2. 准确性
用来描述数据是否与其对应的客观实体的特征相一致(需要一个确定的和可访问的权威参考源)。
例如:某公司的人力资源系统中记录了员工A 的联系方式为12345,然而该员工真实的联系方式是56789,这说明系统中记载的员工A 的联系方式是不准确的,存在准确性问题。
3. 唯一性
用来描述数据是否存在重复记录,没有实体多余出现一次。
例如:全国公安联网核查系统中,有两个公民的身份证号码完全一样,这就说明该系统的身份证号码信息存在唯一性问题。
4. 有效性
用来描述数据是否满足用户定义的条件。通常从命名、数据类型、长度、值域、取值范围、内容规范等方面进行约束。
例如:某银行的核心系统中,客户A 的借记卡余额为-100元,这种现象违反了银行的业务规则,这说明该银行的核心系统中存在数据有效性问。
5. 一致性
用来描述同一信息主体在不同的数据集中信息属性是否相同,各实体、属性是否符合一致性约束关系。
例如:某银行在核心系统中记录的客户A 的性别是“男”,而在信贷系统中客户A 的性别却是“女”,这说明该银行的这两个系统存在数据一致性问题。
6. 及时性
用来描述从业务发生到对应数据正确存储并可正常查看的时间间隔程度,也叫数据的延时时长,数据在及时性上应能尽可能贴合业务实际发生时点。
例如:某证券公司于T 日购买了1亿国债A ,但直到T+10日才看到财务系统中的持仓变化,这说明该证券公司的财务数据存在及时性问题。
证券行业协会对数据质量的要求
2019年9月13日,中国证券业协会下发了“关于就《证券公司全面风险管理规范》等四项自律规则修订稿征求意见的通知。在《证券公司全面风险管理规范》核心修订内容中明确强调了对数据质量的要求。
由此可见,监管机构和行业自律性组织已逐渐意识到数据质量问题已不是个别券商或机构的问题,而是一个普遍性的行业问题,急待解决。
证券公司如何应对数据质量问题
首先,要提升数据质量意识,这需要确保公司各部门中配备合适的人员了解数据质量问题的存在。数据质量意识包括能够将数据质量问题与其实质影响联系起来,同时传达一种“数据质量问题不能仅仅依靠技术手段解决”的理念。在初始阶段,可以提供一些数据质量核心概念的培训。
其次,为数据质量建立数据治理框架。数据治理是为数据管理的各方面贯彻责任制度的一系列流程和程序。
由于数据质量低下会导致不正确的信息。数据清洗也许可以带来短期的、有一定代价的改善,但并不解决数据缺陷的根本问题。如果考虑为提升数据质量提供较为经济的解决方案,实施更加严格的数据质量项目是必要的。
在实际项目中,问题不仅仅包含校正数据,同时还包括管理数据创建、数据转换和数据传输等整个数据生命周期,从而确保生成的信息满足风险数据消费者的需求。
将数据质量管理和质量提升等流程制度化,取决于识别风险管理工作对高质量数据的需求和确定如何度量、监控和报告数据质量的最佳方式。在发现数据处理过程中的问题之后,需要通知相应的数据管理专员采取校正措施以便解决紧急问题,同时,需要采取措施消除问题的根源。
数据质量管理是一个持续的过程,为满足风险管理需求的数据质量标准指定
规格参数,并且保障数据质量能够满足这些标准。数据质量管理包括数据质量分析、识别数据异常和定义风险数据质量需求,还包括在必要的时候对已定义的数据质量规则进行合规性检查和监控的流程,以及数据解析、标准化、清洗和整合。最后,数据质量管理还包括问题追踪,从而对已定义的数据质量服务水平协议的合规性进行监控。
数据质量管理的一种通用方法是戴明质量环,戴明(Deming,W.Edwards )是对质量管理的发展产生巨大影响的大师之一,他提出了被大家所知的“计划-实施-检查-行动”用于解决问题的模型,该模型对数据质量管理同样有效,它包括:
● 指定数据质量现状评估计划和识别数据质量度量关键指标。
● 实施度量和提升数据质量的流程。