企业知识图谱构建

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

日常生活中，我们经常遇到以下两种信息展现方式：

二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。

和人一样，机器也更加擅长利用右图所示的数据。但矛盾之处在于，互联网等数据平台存储的大多是左图所示的数据。要把左图转换成右图，机器需要经历一个「阅读理解」的过程。

这个过程如何完成？这就要提到我们今天的主题——知识图谱。

知识图谱可以做什么？

知识图谱的概念于2012 年由Google 提出，当时主要被用来提高其搜索引擎质量，改善用户搜索体验。随着大数据时代的到来和人工智能技术的进步，知识图谱的应用边界被逐渐拓宽，越来越多的企业开始将知识图谱技术融入其已经成型的数据分析业务，有的甚至使用知识图谱作为其数据的基础组织与存储形式，成为其数据中台的核心基建。

与谷歌类似，微软将知识图谱技术用于旗下必应（Bing）搜索引擎，优化搜索结果质量和交互式搜索体验；LinkedIn 与Facebook 利用知识图谱挖掘其平台上人、事、资讯等之间的相互关系，使得用户更容易发现感兴趣的内容、找到志同道合的朋友；eBay、亚马逊等电商平台使用知识图谱为用户和产品建立联系，执行更精准的产品推荐；IBM 则专注于企业服务，其IBM Watson Discovery 产品能够帮助用户根据自身的特殊需求快速构建自己的知识图谱框架。

虽然知识图谱的概念2012 年才被提出，但其背后的思想本质上是上个世纪的语义网络（Semantic Network）知识表达形式，即一个由节点（Point）和边（Edge）组成的有向图结构知识库。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。

图1：传统知识库与知识图谱示意图[1]

与传统的数据存储和计算方式相比，知识图谱技术更加侧重于对非结构化异构数据的收集和处理，更擅长对于关系的表达和计算，可以处理复杂多样的关联分析、挖掘到更多隐藏

知识。与此同时，知识图谱的数据结构与人工智能领域许多技术任务所基于的数据一脉相承（异质结构多关联的大数据），可以为后续的机器学习和推理任务提供强有力的支持，帮助企业在智能搜索、智能问答、智能推荐、以及大数据分析这几个方面提升性能。

智能搜索：传统的搜索引擎依靠网页之间的链接和权重进行搜索排序，而知识图谱提供了实体的分类、属性和关系的描述，从而可以直接对事物进行更精准的语义搜索。

智能问答：基于知识图谱的智能问答是目前产业界问答系统的主要技术路线之一，即对于给定的自然语言问题，利用知识图谱技术进行语义的解析、查询、推理以得出答案。该技术常见于智能手机或音箱载体上的智能对话机器人，如Siri、Google Assistant、Amazon Alexa、小爱同学、天猫精灵，以及微软的小冰、小娜等，这些智能问答agent 的背后都有相关企业各自积累的知识图谱作为问答系统的支撑。

智能推荐：基于知识图谱的推荐能更好将用户与被推荐项目之间的各种相互联系考虑进来，可以增强数据的语义信息、挖掘隐藏的关联信息，进一步提高推荐的准确度。

大数据分析：基于知识图谱中实体的关联信息和推理，我们能挖掘出传统数据分析较难得到的隐含信息，该优势在存在大量异构信息的数据集中更为显著。基于知识图谱的大数据关联分析在金融风控、反欺诈乃至安防等应用场景中都有很好的效果。

近年来，知识图谱的诸多优势和应用前景使得面向特定领域的知识图谱构建在行业应用中得到推广，产生了如医疗知识图谱、金融知识图谱、电商图谱等不同的垂直行业的知识图谱形态。

图2：行业知识图谱应用一览[2]

如何构建知识图谱？

一般来说，构建一个知识图谱通常会经历知识获取、知识表示与建模、知识融合、知识存储，以及构建完成后的知识查询和推理几大要素：

知识获取：从不同来源、不同结构的数据中抽取知识（实体、关系以及属性等信息），这是知识图谱构建的核心与前提条件。

知识表示与建模：为知识制定统一的数据架构（data schema），将获取到的知识依照统一的数据结构存储并形成知识库，这是知识图谱正式构建的第一步，影响着后续的知识融合、存储以及查询推理可以使用的方法与效果。

知识融合：将不同源的知识以统一的框架规范进行验证、消歧、加工等异构数据整合工作，这是知识图谱更新与合并的必经之路，为不同知识图谱间的交互融合提供可能性。

知识存储：依据数据量的大小、数据特征以及应用需求的不同，选取合适的存储模式，将获取到的数据存储起来，形成知识图谱。

知识查询与推理：基于构建完成的知识图谱进行查询，或者进一步推理挖掘出隐藏知识来丰富、扩展知识图谱，这是知识图谱构建的最终目的，与知识获取共同影响着知识图谱的应用场景和范围。

图3：知识图谱构建的要素与示例流程

在执行正式的知识获取步骤之前，通常会首先确认知识的建模表示方式，主要的方式有两种：

先为知识图谱设计数据模式（data schema），再依据设计好的数据模式进行有针对性的数据抽取，这是自顶向下（top-down）的数据建模方法，一般适用于数据相对集中、知识结构相对确定的垂直领域行业知识图谱；

先进行数据的收集和整理，再根据数据内容总结、归纳其特点，提炼框架，逐步形成确定的数据模式，这是自底向上（bottom-up）的数据建模方法，一般适用于与涉及海量数据、内容繁杂且架构不清晰的公共领域通用知识图谱。

图4：知识图谱数据建模方法[3]

知识图谱构建的核心技术、局限与发展方向

知识获取是构建知识图谱的核心与前提条件，也是自动构建知识图谱最关键的影响要素和重点研究领域。除了纯人工的知识输入之外，目前的知识获取主要是指针对结构化数据（如关系型数据库）、半结构化数据（如词典、百科类标记清晰的网页数据）、或者非结构化数据（如声音、图像和文字语料数据）这三类不同结构的知识进行的自动或半自动抽取。

对于结构和半结构化的数据，通常只需要简单的预处理和映射即可以作为后续数据分析系统的输入，相关技术已经比较成熟。而非结构化数据通常需要借助自然语言处理、信息抽