数据质量的问题以及问题的产生
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据质量的问题以及问题的产⽣
数据质量的问题
数值错误的数据:包括类型错误,例如⽤⽂本字型保存的数字数值;值超限,例如⽂字长度超限、数值⼤⼩超限;空值;编码值不在既定范围内,例如性别限定了M/F两种值,但实际使⽤了T;不准确的数据:例如邮政编码,可能长度、类型都符合要求,但⼀个天津企业的地址信息中邮政编码字段值使⽤了⼀个0681开头的邮政编码(天津应为300开头)。
不⼀致的数据:包括全局编码规则不⼀致,同值域中或不同值域之间重复的数据,不同值域之间间接相关值重复或超出范围的数据;表⽰类似信息的不同字段值不同或错误的数据。
不完整的数据:某业务流中某业务的数据是否完整,是否提前了业务状态⽽缺失了某些业务数据?某些值为空值⽽和它相关的字段值不得为空的情况。
不符合业务规则的数据:包括不符合流程规则(这也是造成不完整数据的⼀个重要原因)、不符合时间规则以及不符合业务逻辑规则的情况。
过时的数据:例如因不正确执⾏业务流或者业务操作缺失造成的留存数据,未被清除或者转移的⼀批数据。
数据质量问题的产⽣
系统维护
系统维护过程中DBA在对数据进⾏操作的过程中,各种不符合业务逻辑或数据逻辑的数据都有可能插⼊到数据记录中,也可能将有⽤的数据记录从系统中强⾏清除。
这些数据记录是相互依赖才能正常⼯作的,后台操作因各种客观原因不能避免,但这些操作跳过了信息系统前台软件的验证和检查过程,将可能对系统造成⽆法恢复的更动。
系统迁升
系统迁升过程将对数据本⾝进⾏多种复杂处理,数据在被处理的过程中可能被转换、截断、连接、更改以及删除。
这些操作有可能由原信息系统执⾏,有可能由新的信息系统的⼯具软件进⾏,与系统维护造成数据质量问题的过程类似,当这些对于数据库直接进⾏的操作发⽣错误时,数据质量问题可能⽴即出现,也可能被隐藏,在后续使⽤过程中才暴露出来。
数据整合
⽤户可能使⽤了多种不同的信息系统来管理企业信息,这些系统之间数据整合过程需要长期的验证和测试⽅能正确⼯作。
数据整合过程经常是在线运⾏的,这样在验证和测试过程中产⽣的微⼩错误数据将会被积攒起来。
可能某些数据对于⾃⾝信息系统来说是正确的,但单独将其整合到其他系统中,由于缺少必要的正确的转换和处理,数据整合过程也许能执⾏通过,但数据整合过程产⽣的错误将在⽇后使⽤过程中造成各种影响最终导致数据质量下降。
客户端软件操作失败,临时数据没有被及时清除。
在⽐较复杂的信息系统应⽤中,客户端经常在服务器端创建⼀些临时数据或在业务流处理过程中更改⼀些关键记录的值域,信息系统开发过程中往往对系统崩溃等意外情况测试较少,这样在实际使⽤过程中将造成的垃圾数据。