构建广西地税征管数据质量管理系统研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

构建广西地税征管数据质量管理系统研究内容提要:广西地税从2009年开始大力推进征管数据自治区局大集中项目,该项目以《广西地税信息系统》征管数据地级市局集中处理为基础,通过数据复制、清洗、转化、抽取等技术实现征管数据的自治区局大集中。推进该项目遇到的一个主要问题是数据质量,由于各市数据质量在准确性、一致性和及时性等方面都存在一些问题,使得数据自治区大集中的数据整合及分析利用都受到严重影响,大集中系统展现的数据可信度受到了很大质疑。

本文着眼于提高税收征管数据质量,对如何构建广西地税税收征管数据质量管理系统进行研究,内容包括:税收征管数据质量的内涵和外延,广西地税征管数据质量现状评估,广西地税征管数据质量问题原因分析,提升广西地税征管数据质量应采取的措施,构建广西地税征管数据质量管理系统的方法与途径,如何建立健全广西地税征管数据质量管理机制等等。

关键词:税务征管数据质量

一、税收征管数据质量的内涵和外延

税收信息化建设过程中,税收征管数据质量的高低既是各方关注的热点、又是信息化应用工作的难点,可称之为税收征管信息系统的“生命线”。数据质量是指数据的优劣程度,或指数据的准确度和可信度,它代表税收征管数据对税收征管工作的可满足程度。无论税收收入会统核算,还是稽查选案、收入预测、纳税评估等都需依赖数据质量。税收征管数据是税收征管应用系统的初始原料和最终产品,经过应用

程序的组织,提供给税务人员和有关方面使用。税收征管数据作为数据的一种,在反映客观世界、完成信息传递功能的同时,具备一般数据的基本属性。下面结合数据的基本属性对税收征管数据质量标准作一些说明。

(一)一致性。数据的一致性是指对数据的解释只有一个标准,即数据指标的标准化,在不同的数据表中针对同一种事物的同一属性应该只有一种约定。譬如,在《广西地税信息系统》中,不同数据表描述纳税人的识别号和微机代码只能是同一个数据。数据指标的标准化是确保数据质量的基础性工作,也是衡量数据质量高低的基础性指标。(二)正确性。用正确性来表示数据库中的数据与客观世界的符合程度。例如,纳税人更改了公司名称或者联系方式后,应该对纳税人基本信息表中相应记录进行更新,否则就会得到不正确的数据。(三)完整性。用完整性来表示信息的完整程度。完整性包括三个方面,分别是实体完整性、引用完整性和域完整性。实体完整性要求一个表中的每一行必须是唯一的;引用完整性定义了一个关系数据库中不同的表的相关列的之间的引用关系;域完整性要求表的某一列的数值在该列的合法的数值范围内。

(四)及时性。用及时性来考察数据的时间特性对应用的满足程度。数据从产生、发展,到消亡,有一个相对的有效期。譬如,在《广西地税信息系统》中申报数据是否在限定期限内征收或转欠税,征收数据是否在限定时间内入库或作废等。

(五)逻辑性。数据的逻辑性是考察关联数据之间的是否符合逻辑关

系。譬如,《广西地税信息系统》中申报主表的欠税额这个指标应该满足下列关系:QSE=SNSE-KPS.

二、广西地税税收征管数据质量现状评估

自治区地税局自2009年10月份开展数据大集中项目建设,在项目实施过程中,发现各地应用《广西地税信息系统》存在较为严重的数据不完整及指标项错漏等数据问题,这些数据问题不但造成《广西地税信息系统》查询统计和报表数据的不准确,影响系统的正常使用,还会使自治区地税局数据大集中系统无法有效开展数据分析利用,阻碍广西地税以大集中系统为工作平台推进“信息管税”和“扁平化”管理的进程。

为此,自治区地税局组织开展了征管数据质量调研分析工作,利用技术手段与人工比对相结合的办法,对全区的征管数据进行检查。检查内容包括:严格按照直接从征管系统取数来重新生成计统报表;比对国库报表和征管系统中的原始数据,分析存在差距的原因;全面检查户籍、申报数据;检查征管系统数据的完整性、一致性和逻辑性;检查征管系统中的垃圾数据等。

数据检查的具体技术手段为:

(一)SQL语句检查。检查的基本原理是:根据业务规则定义检查规则,检查规则的核心是SQL中的select查询语句,即通过select查询找出、发现业务系统中的数据质量问题。展现的内容与SQL语句select的字段有关,逻辑关系与where子句有关。譬如,检查税务登记表(SWDJB)中行业(HY)值是否为空或存在非法代码,我们采

用的语句为:SELECT * FROM SWDJB WHERE HY = NULL OR HY NOT IN (SELECT DM FROM systbase……DMB WHERE DMBMC =“HY”)。(二)编写程序检查。检查的范围是通过一条SQL语句不能完成检查的数据指标。检查原理是,通过编写程序对同一表的不同指标的或者不同表间相关指标的逻辑性进行检查。譬如,检查一条申报记录在申报主表(SBZBJG)和税款征收表(SJYDB)之间的数据是否符合业务逻辑。2009年9月30日检查的部分结果如下:

三、影响广西地税征管数据质量的原因分析

经对错误数据进行充分的分析,将产生错误数据的原因分为业务型、操作型、程序型、混合型等4类问题进行归纳,共整合问题70条,分类汇总如下:

分析上述问题产生的原因,主要有以下几个方面:

(一)软件各地应用差异导致数据不够一致

由于2006年以来,广西地税核心征管系统《广西地税信息系统》采取的是分布式集中,征管数据首先集中在地级市地税局的生产数据库中,再通过数据抽取、转换、加载(ETL过程)工具集中到广西地税的大集中数据库中。由于各地级市各征收单位的代码库是没有关联的,由各地级市地税局技术人员自行维护。因此,各地的数据指标标准不一,在数据自治区大集中过程中产生了大量的不匹配数据,导致数据质量不高、数据可利用率较低。

(二)征管业务流程不够规范统一

广西地税各地的征管模式存在一定差异,有些征管事项的管理模式还不够明确,导致税收征管系统在各地的使用情况存在差异,从而导致部分数据的缺失,影响了数据的统计分析。譬如,备案类减免税的资料采集,有的地级市录入系统,有的没有录入系统,导致在统计这部分减免税时数据出现不准确。

(三)征管数据采集不够规范严谨

一是在数据采集环节。由于纳税人文化程度和业务水平参差不齐,有

相关文档
最新文档