知识图谱构建方法设计研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于多数据源的知识图谱构建方法研究

摘要：针对多数据源的融合应用，构建了基于多数据源的知识图谱。首先，对不同领域内的数据源构建相应本体库，并将不同本体库通过数据融合映射到全局本体库，然后，利用实体对齐和实体链接方法进行知识获取和融合，最后，搭建知识图谱应用平台，提供查询和统计等操作。在实体对齐方面，利用传统的基于相似性传播实体对齐方法，获得良好的实体对齐效果；在实体链接方面，提出了基于约束嵌入转换的预测推理方法，实验结果表明，在预测准确率上取得较好的结果。

0 引言

在大数据时代背景下，随着海量数据的出现以及多数据源融合交叉应用，传统的数据管理模式以及查询方式受到一定的制约。近年来，知识图谱（Knowledge Graph）[1]作为一种新的知识表示方法和数据管理模式，在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系；其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成网状的知识结构[2]。

随着谷歌知识图谱的发布，知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内，知识图谱的构建与研究已经起步，相应取得许多重要的研究成果。如：搜狗的知立方、百度知心；复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱[3]；金贵阳等[4]利用知识图谱和语义网技术，提出构建企业知识图谱的方法，并应用于钢铁企业信息集成，提高了企业信息查询的效率；胡芳槐[5]在博士论文中研究了基于多数据源的中文知识图谱构建方法，涉及到本体层构建、实体层的学习等，同时构建行业领域知识图谱的应用平台；王巍巍等[6]构建了双语影视知识图谱，包括影视本体库的构建、实体的链接、实体匹配等，并搭建了应用平台与开放数据访问接口；鄂世嘉等[7]提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案，并开发面向用户的中文知识图谱系统。

现有的行业领域知识图谱通常采用手工构建方式，缺乏统一的构建方法，且这类知识库目标是特定行业领域，因此，其描述范围极为有限。针对这些问题，提出了将不同领域知识库进行融合成一个知识图谱，旨在构建语义一致、结构一致的多数据融合知识图谱，实现对不同领域内的知识进行查询和展示，从而提高了数据查询效率。

本文提出一个多数据源融合的知识图谱构建流程，并对关键技术进行研究，包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据，构建了多数据融合的知识图谱。

1 知识图谱构建过程

知识图谱构建是知识图谱得以应用发展的前提，涉及实体抽取和实体及实体之间关系的建立，同时还需要很好地组织和存储抽取的实体与关系信息，使其能够被迅速的访问和操作[8]。知识图谱构建过程通常可以分成两步：知识图谱本体层构建和实体层的学习[5]。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习；实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。

知识图谱的构建方法通常有自顶向下和自底向上两种[2]。所谓自顶向下的方法是指先构建知识图谱的本体，即从行业领域、百科类网站及其它等高质量的数据源中，提取本体和模式信息，添加到知识库中；而自底向上的方法是指从实体层开始，借助于一定的技术手段，对实体进行归纳组织、实体对齐和实体链接等，并提取出具有较高置信度的新模式，经人工审核后，加入到知识图谱中。然而，在实际的构建过程中，并不是两种方法孤立单独进行着，而是两种方法交替结合的过程。本文在构建多数据源的知识图谱时采用两种方法的结合，首先采用自顶向下的方式来构建本体库，然后采用自底向上的方式进行提取知识来扩展知识图谱。

图1 多数据融合的知识图谱构建过程

Fig.1 Knowledge graph based data fusion model

本文基于多种数据源的融合技术，构建相应的知识图谱，具体过程如图1所示。图1中是从多种不同的数据源，如各个领域中的结构化、半结构化和非结构化数据，构建相应的领域本体库，然后将它们映射为全局本体库，接着对这些领域知识图谱通过知识获取和数据融合构造知识图谱，最后通过搭建相应的应用平台，方便对知识图谱进行查询与更新。

2 多数据源融合的知识图谱构建

为了能充分利用不同领域内的知识，实现不同领域内数据快速查询，本文在融合多种数据源的情况下，构建了多数据源的知识图谱。首先对不同领域内构建不同领域的本体库，然后将不同领域的本体经过映射成全局本体库，接着对各个领域的知识库进行实体对齐和实体链接，丰富和拓展所构造多数据融合的知识图谱。

2.1数据源

用于构建知识图谱的本体库数据源可以来源于结构化数据、半结构化数据和非结构化数据，以及现有的一些通用知识图谱库等。本文用于构建本体库的数据源如表1所示。

1）结构化数据。其主要是指关系数据库中的表、excel表以及其它具有结构的数据。

2）半结构化数据。其主要指介于结构化数据和无结构化数据之间，通常的XML、HTML等相关网页属于半结构化数据。半结构化数据主要来源于维基百科、百度百科等。

3）无结构化数据。其主要指纯文本资料、图像和声音等数据。

2.2本体库构建

本体（ontology）是对概念进行建模的规范，是描述客观世界的抽象模型，以形式化方式对概念及其之间的联系给出明确的定义[2]。本体定义了知识图谱中的数据模式，因而，本体构建研究的成果能在很大程度上辅助知识图谱的构建[5]。针对不同的应用领域和不同的需求，本体构建的方法也有所不同。本文利用OWL（Web Ontology Language）从多种数据源中构建相应的领域本体库，然后通过映射成全局本体库。

1）领域本体库构建

本文领域本体库构建其主要数据源是来自于环境监测数据库、空气污染检测数据库和医疗健保数据库。除此之外，也利用相关领域的网站数据等。下面重点介绍从关系数据库中获取领域本体库的过程，如图2所示。

首先，领域内的关系数据库是针对特定领域而创建的，该数据库包含了领域内的表达方法和具体应用的详细信息，因此，可以从领域的关系数据库中抽取出关系模式，分析关系数据库中表的信息和字段信息，建立相应的概念模型。

其次，由于关系模式包括表与字段之间的关系，以及表与表之间的联系，而本体库则是包括概念与概念之间的关系、概念与属性间的联系。因此，要利用一定的规则将关系模式映射为本体模型。本文设计了