基于知识图谱和人工智能技术的数据关系智能辨识及可视化应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XXX公司科学技术项目可行性研究报告
项目名称:基于知识图谱和人工智能技术的数据关系智能辨识及可视化管理研究
申请单位:
起止时间:2020年1月1日-2020年12月31日项目负责人:
通信地址:
邮政编码:
联系电话:
传真:
申请日期:2019.09
一、目的和意义
XXX公司(以下简称“公司”)正在大力推进泛在电力物联网及坚强智能电网建设,对电网及电网企业的信息化水平提出了更高的要求,尤其是对于数据资产的深入挖掘利用、全业务流程的协同贯通,有着迫切的需求。因此,全面建设了全业务统一数据中心,实现了源端全业务融合、后端大数据分析。
随着全业务统一数据中心的全面建设,数据的价值发现及使用越来越受重视。为追求企业数据价值最大化,历史数据贯通以及基于业务规则的数据异常发现势在必行。目前虽然通过主数据管理,统一编码管理等方式进行了数据贯通和数据管理,但是对于历史数据的梳理和贯通却收效胜微。主要存在以下问题:
(1)对于历史数据的贯通多采用人工的方式,质量难以得到保证。
(2)需要对原业务系统进行改造,返工工作量及配合成本巨大。
(3)缺乏有效的保障措施,难以确保数据贯通的持续有效。
(4)缺乏知识提取技术,尤其是对于半结构化和非结构化数据知识提取存在盲区,丢失了很多有价值数据,缺乏覆盖电网全业务的知识图谱。
(5)缺少统一的知识库,数据搜索需在多个数据库或应用中分别实现,缺乏关联性,搜索体验差,缺乏智能推荐等功能。
(6)数据资源缺乏全生命周期管控,数据处理各个环节不能有效监管。
因此,亟需在全业务统一数据中心的数据仓库与数据集市之间通过语义标准构建业务数据知识图谱,引入数据化决策模型和监控体系,建立公司信息全息画像,实现业务数据的跨业务贯通,并提供网格化的高速检索和深度挖掘功能,提升企业管理的规范化、标准化、精益化水平。
二、国内外研究水平综述
2012年,Google率先提出知识图谱的概念。知识图谱由知识以及知识之间的关系组成,知识或者说实体的内部特性使用属性—值对来表示,知识之间的关系通过两个实体之间相连接的边来表示。
与传统的基于关键字匹配的搜索引擎工作原理不同的是,知识图谱利用概念、实体的匹配度返回给用户与搜索相关的更全面的知识体系。目前国内外围绕知识图谱构建的研究主要分为三个方面:第一方面是知识获取,主要阐述如何从非结构化、半结构化、以及结构化数据中获取知识,涉及的关键技术包括实体抽取、关系抽取和属性抽取。第二方面是知识融合,主要阐述如何将不同数据源获取的知识进行融合构建数据之间的关联,涉及的关键技术包括实体链接、实体消歧、共指消解。第三方面是知识计算及应用,这一部分关注的是基于知识图谱计算功能以及基于知识图谱的应用,知识推理可以粗略地分为基于符号的推理和基于统计的推理。
近年来,深度学习的理论方法取得了重大的成功,知识的表示学习也逐渐成为目前研究的热点。知识表示学习旨在对于知识库中的实体和关系进行表示学习,将知识中蕴含的语义信息表示为稠密低维实值向量,从而在低维空间中实现高效计算实体和关系的语义联系,不但有效解决数据稀疏的问题,而且使知识获取、融合和推理的效果得到显著的提升。
2.1国外研究现状
知识抽取是从结构化资源(关系数据库)、半结构化资源(HTML,XML等)或非结构化资源(文本、图像等)中形成以机器可理解和解释的形式表示的知识。2012年,华盛顿大学图灵中心针对目前的开放抽取系统Text⁃Runner和WOE等的抽取结果经常会出现不合逻辑的关系和不提供信息的关系,研发出新一代的开放抽取系统ReVerb系统,引入了两个语法限制和词汇限制,作用在动词表示的两元关系上。
同年,美国莱特州立大学HPCO项目(Human Performance and Cognition Ontology)采用半自动化领域层次构建技术,通过迭代的过程,涉及从科技领域进行知识抽取,从选定的社区作者内容(例如维基百科)进行自动分类抽取,在有限的专家指导下进行半自动化本体建设,以便在人类性能和认知领域中抽取出有价值的信息。
2012年,在Google提出了知识图谱的概念后,知识图谱在各个领域内得到广泛的使用,最主要的是和搜索引擎相关的使用。知识图谱首先从Freebase、Wikipedia以全球概览中获得专业的数据,并通过知识抽取,融合等技术将数据转变为能代表实体的知识,利用知识之间的语义关系构成知识图谱,同时还通过大规模的信息搜索分析来提高搜索结果的深度和广度。2012年5月,Google的KG中已经包括了5亿个实体或者概念,包括了35亿条实体或者实体与概念之间的关系,并将该图谱应用在其搜索引擎中,知识图谱在搜索引擎中的。
在大规模图数据上进行高效地查询、匹配是大数据分析处理的基础问题。按照是否采用数据挖掘的方法进行数据匹配,该类技术又进一步分为基于数据挖掘的匹配技术和非数据挖掘的匹配技术。
He等人提出了一种基于树结构的索引算法C-tree,该算法可以同时支持精确匹配和近似匹配,采用多级聚类的方法将数据图聚合为具有层次关系的树结构,树中的每个节点表示一个聚合结果,同时每个节点还包含了其后继节点的重要特征,能够非常高效地筛选备选图,是代表性的基于非数据挖掘的匹配算法。而Yan等人提出的GIndex算法首次提取了图中具有强辨别力的频繁子图作为特征,并基于该特征对大规模多图数据建立索引,是代表性的基于数据挖掘的匹配算法。
实体关联是指对于从文本中抽取得到的实体对象,将其关联到知识库中对应的正确实体对象的操作。2011年,Han等人提出的基于图的集成实体链接方法,能够有效提高实
体链接的准确性。
Ontotext于2011年11月启动的TrendMiner项目,实现了大规模、跨语言的趋势挖掘和实时媒体流的摘要生成,通过跨学科方法,融合了文本处理的深层语言方法,网络科学的基于知识的推理,机器学习和经济政治学科等,监督机器学习算法实现了新趋势和关联的自动发现,为实现在知识图谱中应用智能分析技术奠定了基础。
随后,Facebook于2013年推出了Graph Search产品,其核心技术就是通过知识图谱将人、地点、事情等联系在一起,并以直观的方式支持精确的自然语言查询,例如输入查询式:“我朋友喜欢的餐厅”、“住在纽约并且喜欢篮球和中国电影的朋友”等,知识图谱会帮助用户在庞大的社交网络中找到与自己最具相关性的人、照片、地点和兴趣等。Graph Search提供的上述服务贴近个人的生活,满足了用户发现知识以及寻找最具相关性的人的需求。
耶鲁大学拥有全球最大的神经科学数据库Senselab,脑科学研究还需要综合从微观分子层面一直到宏观行为层面的各个层次的知识。因此,耶鲁大学的脑计划研究人员将不同层次的,与脑研究相关的数据进行检索、比较、分析、整合、建模、仿真,绘制出了描述脑结构的神经网络图谱,从而解决了当前神经科学所面临的海量数据问题,从微观基因到宏观行为,从多个层次上加深了人类对大脑的理解,达到了“认识大脑、保护大脑、创造大脑”的目标。
2.2国内研究现状
国内的主流搜索引擎公司,如百度、搜狗等在近两年来相继将知识图谱的相关研究从概念转向产品应用。搜狗的知立方是国内搜索引擎行业的第一款知识图谱产品,它通过整合互联网上的碎片化语义信息,对用户的搜索进行逻辑推荐与计算,并将最核心的知识反馈给用户。百度将知识图谱命名为知心,主要致力于构建一个庞大的通用型知识网络,以