面向中文地址的复杂数据治理体系

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Computer Science and Application 计算机科学与应用, 2019, 9(5), 960-968

Published Online May 2019 in Hans. /journal/csa

https:///10.12677/csa.2019.95109

Complex Data Management System

for Chinese Address

Yiwei Hou, Wei Zhang*, Zichen Wang

Beijing Information Science & Technology University, Beijing

Received: May 8th, 2019; accepted: May 21st, 2019; published: May 28th, 2019

Abstract

Existing gas IC card address data cannot be directly related to user management data. The address is so complex that the conventional solution is heavy work, longtime, and high investment. For this problem, research address association work puts forward a data management system which includes six modules: organization construction, data mapping, strategy development, data governance, data validation, and continuous improvement. The direct correlation of address data can be realized, and the test proves that it can effectively improve the address association rate and accuracy rate.

Keywords

Data Association, Data Governance, Address Association, Chinese Address

面向中文地址的复杂数据治理体系

侯亦巍,张伟*,王子辰

北京信息科技大学,北京

收稿日期:2019年5月8日;录用日期:2019年5月21日;发布日期:2019年5月28日

摘要

现有燃气IC卡地址数据与用户管理数据无法直接关联,地址数据复杂以至于常规解决方法工作量大、时间长、投入高,针对此问题,研究地址关联工作,提出一种数据治理体系,包含组织构建、数据摸底、策略制定、数据治理、数据验证、持续改进六个模块,可以对复杂地址数据进行处理,从而实现地址直接关联,试验证明,能有效提高地址关联率和准确率。

*通讯作者。

侯亦巍等

关键词

数据关联,数据治理,地址关联,中文地址

Copyright © 2019 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

/licenses/by/4.0/

1. 引言

目前的信息系统大多都包含有地址、联系方式这样的字段,如日常使用的地名、门牌、建筑物名称、企事业单位等,都是地址信息[1]。现有基于地址信息的民用IC卡系统存在与客服子系统不能关联的问题,民用IC卡系统负责用户的开卡、补卡等工作,系统中功能包括气量开补卡、售气、补写、燃气卡查询、用户信息查询和相关统计功能。客服子系统负责支持民用IC卡用户的地址管理、表具管理、巡检(安检)等业务功能,由于民用IC卡系统用户数据不规范,无法与用户管理系统-客服子系统用户数据相关联,无任何集成关系,导致客服人员不能及时查询民用IC卡系统的收费信息。由于早期的用户地址录入是人工书写记录,包含错别字,表达方式不同,地址数据不规范的问题,关联存在很大难度。针对此问题,研究地址关联工作,提出一种数据治理体系,包含组织构建、数据摸底、策略制定、数据治理、数据验证五个模块,可以实现地址数据的直接关联,试验证明,能有效提高地址关联率和准确率。

2. 复杂中文地址治理

依据地址多样性分析,得知原始数据杂乱无章、关系复杂,由此我们建立数据治理体系对地址数据进行有序处理。数据治理体系建设的目的,是建立数据拥有者、使用者、数据以及支撑系统之间的和谐互补关系,从全机构视角协调、统领各个层面的数据管理工作,确保内部各类人员能够得到及时、准确的数据支持和服务数据。治理体系主要包括组织构建、数据摸底、策略制定、数据管控、数据验证五个模块。通过组织架构建立管理方法,制定工作流程,确定角色职责。对数据进行摸底,充分掌握数据情况。通过策略制定有针对性的对不同类型数据采取不同关联方法。数据管控主要包括数据提取、数据分词、数据过滤、数据存储、数据标准化五部分进行数据关联,最后验证关联结果。各模块协同运营,确保数据关联率和准确率。

3. 数据治理体系

3.1. 组织构建

数据治理体系的组织构建旨在通过建立组织架构明确各级角色和职责,保障数据治理的各项管理方法、工作流程的实施,关联数据治理工作的有序开展。组织架构主要包括数据治理决策者、数据分析者、数据关联者、数据测试者,数据质量管控者,数据清洗者。

具体包括如下人员:北京燃气集团信息档案中心、北京燃气集团销售服务部、北京燃气集团第一至五分公司和郊区子公司、北京信息科技大学,角色职责见表1。

3.2. 数据摸底

数据摸底工作在整个流程中非常关键,是对地址数据进行数据抽取,充分了解数据情况,从而制定

相关文档
最新文档