一种数据治理方法及系统[发明专利]
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202110159526.4
(22)申请日 2021.02.05
(71)申请人 北京明略软件系统有限公司
地址 100089 北京市海淀区中关村东路1号
院1号楼10层A1002
(72)发明人 石慧江 王道广 于政
(74)专利代理机构 青岛清泰联信知识产权代理
有限公司 37256
代理人 赵燕
(51)Int.Cl.
G06F 40/279(2020.01)
G06Q 10/10(2012.01)
(54)发明名称一种数据治理方法及系统(57)摘要本申请公开了一种数据治理方法及系统。
数据治理方法包括:创建步骤:创建非结构化的字段信息以及所述字段信息的规则;识别步骤:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;存储步骤:对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
本发明提供一种数据治理方法及系统,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,
能显著降低人工处理成本。
权利要求书1页 说明书8页 附图3页CN 112800755 A 2021.05.14
C N 112800755
A
1.一种数据治理方法,其特征在于,包括:
创建步骤:创建非结构化的字段信息以及所述字段信息的规则;
识别步骤:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
存储步骤:对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
2.根据权利要求1所述的数据治理方法,其特征在于,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
3.根据权利要求1所述的数据治理方法,其特征在于,所述创建步骤包括,创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
4.根据权利要求3所述的数据治理方法,其特征在于,所述识别步骤包括,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
5.根据权利要求4所述的数据治理方法,其特征在于,所述存储步骤包括,将所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
6.一种数据治理系统,其特征在于,适用于上述权利要求1‑5所述的数据治理方法,所述数据治理系统包括:
创建单元:创建非结构化的字段信息以及所述字段信息的规则;
识别单元:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
存储单元:输出符合所述规则的所述结构化字段信息,并对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
7.根据权利要求6所述的数据治理系统,其特征在于,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
8.根据权利要7所述的数据治理系统,其特征在于,所述创建单元创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
9.根据权利要求8所述的数据治理系统,其特征在于,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,所述识别单元通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
10.根据权利要求9所述的数据治理系统,其特征在于,所述存储单元对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
权 利 要 求 书1/1页CN 112800755 A
一种数据治理方法及系统
技术领域
[0001]本申请涉及数据治理技术领域,尤其涉及一种数据治理方法及系统。
背景技术
[0002]维修案例数据通常是以文本的形式存在,文本中详细描述了维修人员的检修过程,例如对于故障原因的定位、检查相关的零部件,定位到故障原因之后会记录维修信息,例如是否更换了相关的零部件,以及记录最终的维修结果。
这种文档型的记录方式优点是可阅读性好;缺点在于当企业想将维修案例数据转化为结构化数据进行分类存储时会耗时耗力,尤其是日积月累的数据量非常大时,这种人工处理非结构化文本数据的成本会非常大。
人工方式进行非结构化维修案例的处理,且需要具有专业维修知识的维修工程师才能处理,因为维修案例本就是由维修人员记录的,且涉及到领域相关的专业用词,非专业维修人员无法从中精准的进行数据的转化。
人工方式的缺点是成本高,分为两个方面,一个是需要专业的维修人员或进行过专业培训的从业人员进行处理,人力成本高;另一个是当维修案例数据多时,所需时间成本也很高,因为人工处理效率不高。
在以上背景下,尽可能降低人工成本。
[0003]因此,针对以上现状,本发明提供一种数据治理方法及系统,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。
发明内容
[0004]本申请实施例提供了一种数据治理方法及系统,以至少解决相关技术中主观因素影响的问题。
[0005]本发明提供了一种数据治理方法,包括:
[0006]创建步骤:创建非结构化的字段信息以及所述字段信息的规则;
[0007]识别步骤:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
[0008]存储步骤:对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
[0009]上述的数据治理方法,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
[0010]上述的数据治理方法,所述创建步骤包括,创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
[0011]上述的数据治理方法,所述识别步骤包括,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,通过所述字段信息对应的
所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
[0012]上述的数据治理方法,所述存储步骤包括,对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
[0013]本发明还提供一种数据治理系统,其中,适用于上述所述的数据治理方法,所述数据治理系统包括:
[0014]创建单元:创建非结构化的字段信息以及所述字段信息的规则;
[0015]识别单元:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
[0016]存储单元:输出符合所述规则的所述结构化字段信息,并对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
[0017]上述的数据治理系统,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
[0018]上述的数据治理系统,所述创建单元创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
[0019]上述的数据治理系统,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,所述识别单元通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
[0020]上述的数据治理系统,所述存储单元对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
[0021]相比于相关技术,本发明提供一种数据治理方法及系统,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。
[0022]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0023]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
在附图中:[0024]图1是根据本申请实施例的数据治理方法流程图;
[0025]图2是根据本申请实施例的框架图;
[0026]图3为本发明的数据治理系统的结构示意图;
[0027]图4是根据本申请实施例的电子设备的框架图。
[0028]其中,附图标记为:
[0029]创建单元:51;
[0030]识别单元:52;
[0031]存储单元:53;
[0032]总线:80;
[0033]处理器:81;
[0034]存储器:82;
[0035]通信接口:83。
具体实施方式
[0036]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0037]显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。
此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0038]在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。
在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。
本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0039]除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。
本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。
本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。
本申请所涉及的“多个”是指两个或两个以上。
“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
字符“/”一般表示前后关联对象是一种“或”的关系。
本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0040]本发明基于维修案例数据治理,下面进行简要的介绍。
[0041]数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
数据治理是一种数据管理概念,涉及使组织能够确保在数据的整个生命周期中存在高数据质量的能力。
一个数据管家是确保数据治理流程遵循,指导执行,并建议改进数据
治理流程的作用。
企业高层必须制定一个基于价值的数据治理计划,确保董事会和股东可以方便、安全、快速、可靠地利用数据进行决策支持和业务运行。
数据治理对于确保数据的准确、适度分享和保护是至关重要的。
有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。
数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
数据治理是一种数据管理概念,涉及使组织能够确保在数据的整个生命周期中存在高数据质量的能力。
一个数据管家是确保数据治理流程遵循,指导执行,并建议改进数据治理流程的作用。
企业高层必须制定一个基于价值的数据治理计划,确保董事会和股东可以方便、安全、快速、可靠地利用数据进行决策支持和业务运行。
数据治理对于确保数据的准确、适度分享和保护是至关重要的。
有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务,并最终体现为增加收入和利润。
独立企业数据集成软件提供商Informatica公司(纳斯达克代码:INFA)认为:数据治理成功的关键在于元数据管理,即赋予数据上下文和含义的参考框架。
经过有效治理的元数据可提供数据流视图、影响分析的执行能力、通用业务词汇表以及其术语和定义的可问责性,最终提供用于满足合规性的审计跟踪。
元数据管理成为一项重要功能,让IT部门得以监视复杂数据集成环境中的变化,同时交付可信、安全的数据。
因此,良好的元数据管理工具在全局数据治理中起到了核心作用。
Informatica将数据治理定义为“在组织范围内,对流程、政策、标准、技术和人员进行职能协调和定义来将数据作为公司资产管理,从而实现对准确、一致、安全且及时的数据的可用性管理和可控增长,以此制定更好的业务决策,降低风险并改善业务流程”。
数据治理着重于交付可信、安全的信息,为制定明智的业务决策、有效的业务流程并优化利益相关方交互提供支持。
因此,数据治理本身并非是结果,而仅仅是方法:即通过数据治理来支持最关键的业务目标。
元数据为数据提供了一个参考框架。
Forrester Research将元数据定义为“用于描述数据、内容、业务流程、服务、业务规则以及组织信息系统的支持政策或为其提供上下文的信息”。
譬如,苹果公司旗下的App Store在网上销售软件应用程序。
在此情况下的数据是应用程序。
元数据则是关于这些应用程序的信息,包括应用程序描述、价格、用户评级、评论和开发公司。
正如某家大型银行的高管所言:“如果没有数据治理,任何元数据管理方案注定会失败。
”元数据管理可作为一项重要功能,让IT部门得以管理复杂数据集成环境中的变化,同时交付可信、安全的数据。
当业务利益相关方参与这一进程并接受对数据参考框架的责任,其优势将变得更有说服力。
此时,企业就能将业务元数据与基层的技术元数据进行关联,为全公司范围内的协作提供词汇表和背景资料。
[0042]相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以
及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。
结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。
它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
数据模型:结构化数据:二维表(关系型);半结构化数据:树、图。
RMDBS的数据模型有:如网状数据模型、层次数据模型、关系型。
其他:结构化数据:先有结构、再有数据;半结构化数据:先有数据,再有结构。
随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。
这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。
因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。
我国非结构化数据库以北京国信贝斯(iBase)软件有限公司的IBase数据库为代表。
IBase数据库是一种面向最终用户的非结构化数据库,在处理非结构化信息、全文信息、多媒体信息和海量信息等领域以及Internet/Intranet应用上处于国际先进水平,在非结构化数据的管理和全文检索方面获得突破。
它主要有以下几个优点:通过从上面的分析后我们可以预言,随着网络技术和网络应用技术的飞快发展,完全基于Internet应用的非结构化数据库将成为继层次数据库、网状数据库和关系数据库之后的又一重点、热点技术。
[0043]结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等。
支持非结构化数据的数据库采用多值字段、了字段和变长字段机制进行数据项的创建和管理,广泛应用于全文检索和各种多媒体信息处理领域。
结构化数据标记,是一种能让网站以更好的姿态展示在搜索结果当中的方式。
做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。
搜索引擎都支持标准的结构化数据标记,以便为用户提供更好的上网体验。
网页内微数据标记可以帮助搜索引擎理解网页上的信息,能更方便搜索引擎识别分类,判断相关性。
同时结构化微数据可以让搜索引擎提供更丰富的搜索结果摘要展现,也就是为用户的具体查询提供帮助的详细信息,让用户直接在搜索结果中看见你商品的重要信息。
例如:商品的价格、名称、库存状况(商品是否有货)、评论者评分和评论等都可以在搜索结果摘要直接看到。
这些丰富网页摘要可帮助用户了解网站与他们的搜索内容是否相关,可以让网页获得更多点击。
如在搜索结果中,部分展示了更多的星级评分、评论条数以及价格等因素,这样无疑增加了网站的专业程度,且提高了客户对网站的信任度,网站良好的曝光度无形中就提高了网站的点击率与转化率。
[0044]本发明提供一种数据治理方法及系统,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。
[0045]下面将数据治理为例对本申请实施例进行说明。
[0046]实施例一
[0047]本实施例提供了数据治理方法。
请参照图1‑图2,图1是根据本申请实施例的数据治理方法流程图;图2是根据本申请实施例的框架图,如图所示,数据治理方法包括如下步骤:
[0048]创建步骤S1:创建非结构化的字段信息以及所述字段信息的规则;
[0049]识别步骤S2:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
[0050]存储步骤S3:对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
[0051]实施例中,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。
[0052]实施例中,所述创建步骤S1包括,创建所述字段信息的类别以及所述字段信息的范围,并设定所述字段信息的规则。
[0053]具体实施中,由人工确定需结构化的信息类别,如需要将故障原因、故障零部件、工况信息、维修零部件、维修结果等字段信息转成结构化数据,则由人工确定结构化字段范围,并对每个自定义的结构化字段设定规则,该规则描述对应字段在文本中的匹配规则。
[0054]实施例中,所述识别步骤S2包括,通过训练完成的实体识别模型,遍历所述字段信息,获取所述字段信息对应的所述结构化字段信息后,通过所述字段信息对应的所述规则,对所述结构化字段信息进行筛选,并识别出符合所述规则以及所述字段信息对应的所述结构化字段信息。
[0055]具体实施中,通过标注一些维修案例,标注出故障原因、涉及到的零部件、维修结果等,训练得到实体识别模型,并将该模型用于实体识别。
[0056]实施例中,所述存储步骤S3包括,对所述字段信息、所述结构化字段信息以及所述维修案例文本数据作为整体数据进行存储。
[0057]由此,本发明提供一种数据治理方法及系统,本发明通过算法进行实体识别并配合规则筛选结果的数据治理方案,将原本的非结构化维修案例数据转化为结构化数据,能够显著提高非结构化维修案例数据转化为结构化数据的转化效率,能显著降低人工处理成本。
[0058]实施例二
[0059]请参照图3,图3为本发明的数据治理系统的结构示意图。
如图3所示,发明的数据治理系统,适用于上述的数据治理方法,数据治理系统包括:
[0060]创建单元51:创建非结构化的字段信息以及所述字段信息的规则;
[0061]识别单元52:通过实体识别模型遍历所述字段信息,获取所述字段信息对应的结构化字段信息后,通过所述规则对所述结构化字段信息进行筛选,并识别出符合所述规则的结构化字段信息;
[0062]存储单元53:输出符合所述规则的所述结构化字段信息,并对所述字段信息、符合所述规则的结构化字段信息与维修案例文本数据进行存储。
[0063]在本实施例中,所述字段信息包括,故障原因、故障零部件、工况信息、维修零部件以及维修结果等。