基于知识表示学习的冬奥会知识图谱构建与可视化系统实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘要
摘要
随着近年来人工智能技术的发展,我们逐渐从数字化、信息化时代迈入智能化时代,互联网成了最大的多源信息获取平台。

知识图谱打破了传统数据存储媒介的局限,以结构化的方式将互联网上的多源异构数据通过实体和关系整合起来,组成一个统一的语义网络结构,为智能问答、智能搜索提供底层数据和技术支持。

冬奥会领域的网络数据存在着知识碎片化严重、知识展示单一化的问题,各种来源数据相互独立且结构不同,无法实现数据的互通共享,从而导致服务手段智能化不足等问题。

因此面对海量的冬奥会数据,亟需一种有效的数据管理方式整合数据,从而提供更加智能化的服务手段。

知识图谱的出现为该问题的解决提供了新思路。

网络数据可以通过知识图谱实现语义链接,从而将多源异构数据进行整合利用。

目前关于冬奥会领域的知识图谱的研究比较匮乏,因此本文以冬奥会领域为背景,研究并构建基于知识表示学习的冬奥会知识图谱并进行可视化。

本文围绕冬奥会领域知识图谱的构建技术以及可视化技术构建了基于知识表示学习的冬奥会知识图谱并进行可视化。

在实现过程中,本文的主要工作包括以下几个方面:
(1)分析冬奥会领域网络数据特点,采用分布式网络爬虫技术从互联网爬取与冬奥会领域相关数据,并进行知识抽取,抽取出结构化三元组知识。

(2)研究基于关系路径的表示学习算法。

本文对表示学习模型TransD进行改进,提出PTransDW模型,使用TransD对直接关系建模,利用路径建模获得多步关系路径之间的隐含关系,还引入了关系类型相关的关系权重矩阵,用以提升模型的表示能力。

最后在数据集上验证了模型的性能表现。

(3)冬奥会知识图谱的构建以及可视化系统的实现。

通过对冬奥会领域数据进行知识抽取、知识融合、知识存储,构建面向冬奥会领域的知识图谱。

采用Python语言、Neo4j图数据库、基于Python的Web框架Flask、Node.js+Vue前端技术,最终实现了基于知识表示学习的冬奥会知识图谱的构建以及可视化系统。

关键词:知识图谱;知识表示学习;冬奥会领域;可视化系统
Abstract
In recent years, with the development of big data and artificial intelligence tech-nology, we have gradually entered the intelligent era from the digital and information age, and the Internet has become the largest platform for obtaining multi-source infor-mation. Knowledge graph breaks the limitations of traditional data storage media, inte-grates multi-source heterogeneous data on the Internet through entities and relation-ships in a structured way to form a unified semantic network structure, providing un-derlying data and technical support for intelligent question answering and intelligent search. As for the network data in the field of Winter Olympic Games, there are some problems, such as the serious fragmentation of knowledge and the simplification of knowledge display. V arious sources of data are independent and have different struc-tures, which can not realize the exchange and sharing of data, resulting in the lack of intelligent service means and other problems. Therefore, in the face of massive data of the Winter Olympic Games, an effective data management method is urgently needed to integrate data, so as to provide more intelligent service means. The emergence of knowledge graph provides a new way to solve this problem. Knowledge graph can ef-fectively associate semantic network data and realize the integration and utilization of multi-source heterogeneous data. At present, there is a lack of research on Knowledge graph in the field of Winter Olympic Games. Therefore, based on the background of Winter Olympic Games, this thesis studies and constructs the knowledge graph of Win-ter Olympic Games and visualizes it.
This thesis focuses on the construction technology and visualization technology of Winter Olympic domain knowledge graph, constructed the Winter Olympic knowledge map based on knowledge representation learning and makes visualization. In the pro-cess of implementation, the main work of this thesis includes the following aspects:
(1) This thesis analyzed the characteristics of the Internet data related to the Winter Olympic Games, uses the distributed web crawler technology to crawl the data related to the Winter Olympics from the Internet, and extracts the knowledge from the struc-tured triplet.
(2) The representation learning algorithm based on relation path is studied. This thesis improves the representation learning model TransD, proposes the PTransDW
model, uses TransD to model the direct relationship, uses path modeling to obtain the implicit relationship between multi-step relationship paths, in addition, introduces the weight matrix of relation type is used to improve the representation ability of the model. Finally, the performance of the model is verified on the data set.
(3) The construction of Winter Olympics knowledge graph and the realization of visualization system. Through knowledge extraction, knowledge fusion and knowledge storage, a knowledge graph based on Winter Olympics domain is constructed. It adopts Python language, Neo4j graph database, Python based Web framework Flask and Node. js +Vue front-end technology finally realized the construction and visualization system of Winter Olympics knowledge graph based on knowledge representation learning. Keywords: Knowledge graph; Knowledge representation learning; Winter Olympics field; Visualization system
目录
摘要 (I)
Abstract (II)
第1章绪论 (1)
1.1 研究背景及意义 (1)
1.2 国内外研究现状 (2)
1.2.1 知识图谱构建研究现状 (2)
1.2.2 知识表示学习研究现状 (4)
1.3 研究目标和研究内容 (6)
1.4 论文组织结构 (7)
1.5 本章小结 (8)
第2章相关理论基础及技术 (9)
2.1 知识图谱构建 (9)
2.1.1 知识图谱概念 (9)
2.1.2 知识抽取技术 (10)
2.1.3 知识存储技术 (12)
2.1.4 知识融合技术 (13)
2.2 知识表示学习 (14)
2.2.1 基于翻译模型的表示学习 (14)
2.2.2 引入额外信息的表示学习 (16)
2.3 爬虫技术 (18)
2.4 本章小结 (19)
第3章改进的基于关系路径的知识表示学习 (21)
3.1 基本思想 (21)
3.2 模型设计 (21)
3.3 模型训练 (25)
3.4 实验与结果分析 (26)
3.4.1 数据集与实验设置 (26)
3.4.2 评价指标 (27)
3.4.3 实验结果分析 (27)
3.5 本章小结 (28)
第4章冬奥会知识图谱系统的分析与设计 (31)
4.1 系统分析 (31)
4.1.1 可行性分析 (31)
4.1.2 需求分析 (31)
4.2 系统设计 (32)
4.2.1 系统功能设计 (32)
4.2.2 系统架构设计 (33)
4.3 数据源与开发环境配置 (35)
4.3.1 数据源 (35)
4.3.2 系统开发环境配置 (36)
4.4 本章小结 (36)
第5章冬奥会知识图谱系统实现 (37)
5.1 冬奥会知识图谱构建 (37)
5.1.1 数据获取 (37)
5.1.2 数据预处理 (38)
5.1.3 知识抽取 (38)
5.1.4 知识表示 (43)
5.1.5 知识融合 (43)
5.1.6 知识存储 (44)
5.2 冬奥会知识图谱可视化 (46)
5.2.1 系统首页 (46)
5.2.2 冬奥会知识图谱展示 (47)
5.2.3 知识查询 (48)
5.2.4 知识导入 (49)
5.3 系统测试 (50)
5.3.1 系统兼容性测试 (51)
5.3.2 系统模块测试 (51)
5.3.3 系统功能性测试 (52)
5.4 本章小结 (52)
结论 (53)
参考文献 (55)
攻读硕士期间发表的论文和科研成果 (59)
致谢 (61)
作者简介 (63)
第1章绪论
第1章绪论
本章首先介绍课题的研究背景及意义,并详细介绍了知识图谱构建以及知识表示学习的国内外研究现状,然后叙述了本课题的研究目标和研究内容,最后介绍了本课题的论文组织结构。

1.1 研究背景及意义
随着大数据时代的到来,互联网成为了人们获取各种数据的最大信息资源库,网络信息实时更新,互联网中的数据每天以指数倍数增长。

对于用户来说,面对海量的互联网数据,并不是所有信息都是人们所需要的,一般人们只关注自己关心的数据信息。

然而日益呈指数增长的互联网数据,使得各种领域知识面临知识碎片化严重、组织结构松散、智能化程度有限等问题,因此研究如何快速从海量多源异构网络数据中挑选出对用户有价值的数据,并构建一个完整的特定领域知识体系并利用这个知识体系提供智能化服务,变得越来越重要。

2012年Google公司提出知识图谱(Knowledge Graph,KG)的概念[1],提出将知识图谱应用于搜索引擎中,将海量零散碎片化的知识以知识图谱的形式组织起来,形成一个万物互联的语义网,这样当用户进行搜索时不仅会显示出搜索答案,还会将与答案相关的知识返回给用户,以此来提升搜索的性能。

传统的基于关键字和TF-IDF的搜索匹配技术中,当用户搜索某个关键字时,会返回大量与关键字相关的网页信息,用户需要一个个点击网页来获取需要的信息,这种信息搜索的用户体验并不好。

随后,知识图谱这一技术的引入突破了以往基于关键字搜索的局限性,将互联网的数据组成一个巨大的语义网络,以此来提升搜索的智能化程度,此后也越来越多的研究学者开始了对知识图谱的研究。

知识图谱实际上是一个语义网络,包括了客观世界中的实体和关系的集合。

在知识图谱中,用节点(Point)表示客观世界的实体或概念,节点之间的边(Edge)表示某个实体的属性或者实体间的关系。

知识图谱是一种基于语义的知识库,以知识图谱为数据支撑使得机器的智能化程度更接近于人类,从而更精准的定位有效信息。

随着近年来语义网技术的发展,越来越多的数据以知识图谱这种结构化形式共享在互联网上,如WikiData、FreeBase、DBpedia,国内的zhishi.me、CN-DBpedia、搜狗的“知立方”、百度的“知心”等。

知识图谱为网络数据提供了一种结构化的知识组织形式,各种实体之间通过语义关联,使机器思考能像人的大脑一样更加智能。

在人工智能领域,知识图谱广泛应用于智能问答、搜索引擎、
河北工程大学硕士学位论文
社交网络分析系统、文档分类系统、辅助决策系统等领域,为各类应用提供底层数据支持。

开放域知识图谱更加关注知识的广度,目前已发展较为成熟,而垂直领域
知识图谱主要面向特定领域,数据来源一般是特定的领域网站或者数据库,更
多的是关注数据的准确度和深度,主要用于特定领域的某个业务场景。

目前垂
直领域知识图谱仍然处于起步阶段。

冬奥会赛事领域的网络数据存在着多源异构、知识展示方式单一化、服务手段智能化不足的特点,而鉴于目前有关冬奥会领域知识图谱的研究比较少,本文提出构建冬奥会领域的知识图谱,用以知识图谱这种知识组织形式来将多源异构、碎片化的冬奥知识有效组织起来,方便了管理者对于冬奥数据的合理利用,同时也方便了用户快速准确的筛选有用信息,及时做出精准决策,为冬奥会领域知识的智能化服务提供了数据支撑。

1.2 国内外研究现状
随着2012年知识图谱的概念被提出,近年来涌现出了许多创新性的成果,下面将围绕冬奥会知识图谱的构建,分别介绍知识图谱构建的国内外研究现状以及知识表示学习的国内外研究现状。

1.2.1 知识图谱构建研究现状
知识图谱提供了一种语义化的知识组织形式,使机器能像人类一样进行关联性的思考。

因知识图谱支持语义化搜索近年来被广泛应用于金融、医疗、教育、电商、公安、农业、数字图书馆以及司法等各种领域。

知识图谱的构建包括知识抽取、知识表示、知识融合、知识存储等步骤。

知识抽取是指对于互联网上存在的半结构化以及非结构化数据经过预处理以后运用知识抽取模型提取出三元组形式的结构化知识,知识表示是指对于抽取到的三元组进行分布式表示,将实体和关系嵌入到低维连续的向量空间进行向量化表示,知识融合是指将多源,将对齐后的结果补充到现有的知识图谱中用以扩充现有知识图谱的规模,知识图谱存储是指运用诸如Neo4j、Hugegraph等图数据库对知识图谱进行存储,以便后续业务场景的应用。

知识图谱分为垂直领域知识图谱和开放域知识图谱。

开放域知识图谱需包含大量的来自于百度百科、维基百科等百科类知识,这类知识覆盖领域广泛、数据规模大,因此开放域的知识图谱广泛应用于问答系统和搜索系统中。

垂直领域知识图谱是针对某个特定领域的知识图谱,其知识覆盖范围相对较小,更注重的是
第1章绪论
知识的深度和准确度,如医疗知识图谱应用于医疗行业的辅助决策系统、金融知识图谱应用于金融行业的反欺诈、司法知识图谱应用于司法领域以辅助司法案件判决等。

知识图谱的概念虽然最近才被提出来,但却并不是一个全新的领域,知识图谱这一概念是对传统知识库概念的上升。

国外开放域知识图谱研究起步较早,国外的开放域的知识图谱有Freebase[2]、Wikidata[3]、DBpedia[4]、Yago[5]等。

2007年,美国软件公司Metaweb 发布了Freebase知识图谱,Freebase是一个由大量元数据组成的知识图谱,其中Freebase超过24亿个的三元组,在这24亿三元组中包含了6800万个实体以及10 亿条关系。

随后越来越多研究学者开始致力于构建开放域知识图谱,Wikidata是一个多语言的百科类开放域知识图谱,Wikidata可以链接到其他开放数据集,目前拥有近5000万个实体,并分别用超过350种语言进行描述,是一个支持自由协作编辑的多语言知识图谱;DBpedia也是一个由上百种语言描述的知识图谱,该知识图谱由柏林自由大学构建,拥有近10亿个三元组,是世界上最大的开放域知识图谱之一;Yago集成了Wikidata、Wordnet 以及Geogames三个来源的数据构建的大规模知识图谱,Yago在RDF三元组中引入了时间和空间信息,从而得到Yago2[6],随后,在Yago1和Yago2的基础上用同样的抽取方法抽取了多种语言的维基百科知识,从而构建了Yago3[7],目前拥有10种语言的约459万个实体和2400万个三元组。

以上知识图谱别的构建都是基于百科类百科网站构建的知识图谱,而百科类网站数据增长速度逐步趋于平缓,无法满足当今信息告诉增长的需求,因此2014年谷歌考虑从非结构化文本中抽取所需要的知识,提出了Knowledge V ault知识图谱,在构建的过程中采用了DOM树、人工注释、表格数据、文本分析这四种方法进行抽取,以此来获得构建知识图谱所需要的数据。

国内知识图谱起步较晚,2012年google公司提出知识图谱的概念后,搜狗公司同年推出中文知识图谱“搜狗知立方”[8],是国内首次将知识图谱应用于搜索引擎,使搜索性能有了很大的提升;随后百度公司也开始构建了自己的知识图谱-“知心”[9],“知心”的数据源包括百科类网站、垂直类网站以及用户的搜索日志等;2015年由复旦大学构建的综合性知识图谱CN-DBpedia[10],覆盖了各个领域的知识,包含了超过6700万的三元组关系以及近900万的实体,在CN-DBpedia中通过构建端对端的抽取模型来节省人力物力,并且加入了自动更新技术以此来保证数据的时常更新。

北京大学构建了中文百科类知识图谱PKUPie[11],采集来自维基百科、DBpedia、百度百科等多个来源的数据,构建开放域知识图谱,深圳狗尾草科技公司构建了XLore大规模中英文开放域知识图谱[12],其中包含近1600万的实体和超过40万的关系。

河北工程大学硕士学位论文
在垂直领域知识图谱构建方面,国内外研究学者也纷纷开始参与研发。

2013年FaceBook推出了世界上第一个基于社交网络的知识图谱Facebook Graph,通过Graph Search来判断用户希望获取的信息。

随后,2017年阿里巴巴也构建了包含海量商品数据的知识图谱,用以提升用户的购物体验。

与开放域知识图谱相比,就知识图谱的规模、精确度和智能化程度来说,垂直领域知识图谱的构建仍然处于起步阶段。

1.2.2 知识表示学习研究现状
随着大数据技术的发展,爆炸式增长的数据使知识图谱的规模越来越大,实体间的关系也越来越复杂,给知识图谱的推理计算带来了很大的难度。

传统的知识图谱表示方法是网络形式表示法,用节点来表示实体,实体间的关系用节点之间的边来表示。

但是这种网络表示方法有一定的局限性,首先是网络表示法会导致数据稀疏问题,对于长尾部分的实体和关系,语义计算的准确率低下;其次在网络表示法中如果需要进行推理计算,则要设计合适的图算法来进行计算实现推理,但是一般随着知识图谱规模的扩大,图计算的复杂度也大幅度提高,给知识计算带来了巨大的挑战。

对于不同的图结构需要设计特定的图算法,不具备通用性,这样人工设计图算法会浪费大量的时间和人力,因此当知识图谱达到一定的规模时,网络表示法便不再适用了。

独热表示法(one-hot representation)[13]也曾被提出用来对数据进行表示,在独热表示法中,将研究对象表示为向量,对象的个数即为向量的维度,除了某一维为1,其他均为0,这种表示法因其简单并且不需要训练而被广泛用于信息检索和自然语言处理领域,但是独热表示法也有其局限性,在这种表示法中除了某一维度为1其他都是0,各个对象之间的向量是相互独立的,即使两个词之间有一些共同特征,独热表示法中也不能体现出来,这样就忽略了对象之间的语义相似性,其次这种表示法中“0”向量太多导致数据稀疏问题。

近几年,许多研究人员开始研究知识图谱的表示学习,将用符号表示的实体和关系映射到一个低维稠密的向量空间中,在向量空间中计算实体之间的语义关联度,进而捕获知识图谱中的语义信息。

与独热表示法相比,知识图谱表示学习的向量维度较低,有利于降低计算的复杂度,另一方面,表示学习方法表示的实值向量几乎不包含“0”向量,从而解决传统表示法中的数据稀疏问题。

在知识表示学习方法中,用实体在向量空间的距离衡量实体间相似度大小,距离越近则实体之间的相似度越高,以此来进行计算和推理。

知识表示学习在计算实体之间的语义联系上表现出极大的优势,被广泛应用于智能问答、知识融合、关系抽取、知识图谱补全等任务中。

近年来,研究学者提出的知识表示学习模型有距离模型、
第1章 绪论
神经网络模型、矩阵分解模型、翻译模型等几个大类[14]。

在翻译模型提出以前,很多学者也提出一些知识表示学习模型。

2011年Bordes 和Weston 等人提出基于距离的结构表示模型(Structured Embedding ,SE)[15],将实体表示为向量,然后通过定义2个用于实体映射的关系矩阵将头实体和尾实体映射到同一个向量空间,但是在SE 模型中2个关系矩阵是不一样的,因此会导致协同性差,无法很好的表示三元组之间的语义联系。

随后Socher 等人提出单层神经网络模型(Single Layer Model ,SLM)[16]来对SE 模型进行改进,提出用神经网络的非线性操作来解决SE 模型中的语义缺失问题,然而非线性操作带来的复杂度非常高,但是对于语义缺失问题并没有提升很多。

后来,有许多学者提出更复杂的模型用以提升实体和关系间的语义联系,如Bordes 等人提出的语义能量匹配模型(Semantic Matching Energy ,SME)[17]、Nickel 等人基于矩阵分解的RESACL 模型[18]等,这些模型主要关注点在模型的性能提升上,这样带来的参数爆炸问题导致模型的复杂度非常高。

早期表示学习模型都是以复杂度的提升为代价来增强实体和关系的语义联系的,因此当知识图谱的规模扩大,这些模型就无法展示出较好的效果了。

后来,Mikolov 等人[19][20]发现语义空间存在平移不变现象,如CC (kkkk kk kk )−CC (qqqqqqqqkk )≈CC (mmmmkk )−CC (wwwwmmqqkk ),其中CC 表示学习到的该词的词向量,
显然词向量能捕捉到king 和queen 、man 和women 之间的相同的语义关系,也就是说在单词之间存在着平移不变现象。

根据这种现象,2013年Bordes 等人提出基于翻译的知识表示学习模型TransE [21],将实体和关系都表示为低维稠密的实值向量,将每对实体间的关系都看作头实体到尾实体的翻译,在向量空间中同时对实体和关系进行嵌入学习,这就是翻译模型的由来。

当该三元组(,,)h r t 成立时,头实体的向量与关系向量相加应该约等于尾实体的向量,即≈h +r t 成立,负三元组则相反。

此外,为了衡量嵌入的合理性,需定义打分函数()r f h,t ,在TransE 模型中的打分函数定义为:(),n L f h t r =h +r -t ,在TransE 模型中,负三元组的构造是通过随机替换掉头实体、尾实体、关系三者中的一项来构造。

TransE 模型与早期的表示学习模型相比,TransE 模型训练参数少、训练速度快、简单高效,解决了早期表示学习模型中复杂度高的问题。

TransE 模型在处理一对一关系上表现出极大的优势,但是该模型在处理一对多、多对一、多对多等复杂关系建模上,并不能展现出很好的效果。

随后很多国内外学者在TransE 模型的基础上进行改进以解决复杂关系建模问题。

Wang 等人提出TransH 模型[22]用以处理复杂关系建模问题,通过定义一个超平面,将实体映射到关系超平面,允许实体在不同的关系下可以
河北工程大学硕士学位论文
有不同的表示,以此来处理复杂关系建模的问题。

但是无论是TransE还是TransH,实体和关系都被嵌入到同一平面,即将默认实体只有一种属性,忽略了实体和关系类型的多样性,实际情况中,实体的属性是具有多样性的。

因此,TransR模型[23]被提出以改进上述问题,在TransR中定义一个映射矩阵
M来将实体从实体空
r
间映射到关系空间,在关系空间中使具有关系r的头实体和尾实体在关系空间中距离相近,而不具有关系实体距离较远。

虽然TransR解决了实体属性多样性的问题,但是该模型中实体到关系的映射矩阵都是一样的,这样就默认一种关系只代表一种语义,显然这并不符合实际情况,而且该模型训练过程中涉及大量的矩阵相乘操作,增大了计算量。

因此Ji等人[24]提出TransD模型,为知识图谱中每一个关系都定义一个和头实体尾实体都有关联的映射矩阵,映射矩阵通过映射向量与实体和关系向量进行计算得到,从而也就将实体和关系的多样性都考虑在内,训练过程中所需参数少,可用于大规模知识图谱表示。

对于TransE、TransH、TransR、TransD都只考虑了三元组的结构建模,并未将关系路径的语义信息考虑在内。

Lin等人[25]在TransE模型的基础上将关系路径考虑在内,提出基于关系路径的表示学习模型PTransE,对多步关系进行建模利用丰富的路径信息来缓解数据稀疏问题,以提升模型的表示能力。

段鹏飞等人[26]在PTransE的基础上改进,将直接关系建模模型换成TransR,提升了模型的表示能力。

此外,也有许多研究学者在表示学习中引入额外信息。

Fan等人在TransE的基础上提出TransM模型[27],在TransM模型中根据三元组中每个关系的映射属性,预先训练关系权重矩阵,以此来提升多映射的关系表示学习处理的灵活性。

Xie等人提出DKRL模型[28],利用卷积神经网络来提取实体的描述信息,在对三元组结构建模中引入实体特征。

Guo等人提出KALE模型[29],通过引入逻辑规则来提升翻译模型的表示能力。

在TorusE模型中将嵌入向量空间的平面变成环面[30],解决TransE模型中存在的正则化问题。

ConvE 模型是由卷积层、投影层和内积层组成的卷积网络模型[31],与传统模型不同的是,ConvE模型采用2D卷积进行链接预测。

ConvKB将卷积神经网络用于表示学习中[32],捕获实体和关系之间的全局关系特征。

KBGAN模型是一种对抗型学习框架[33],通过改进负样本生成策略来提升模型的表示性能。

1.3 研究目标和研究内容
面对互联网上关于冬奥会知识碎片化、知识展示单一化问题,本文设计了包含数据采集、知识抽取、知识表示、知识融合、知识存储等多种技术与算法构建了冬奥会领域的知识图谱及其可视化系统。

本文的主要研究内容有以下几个部分:
第1章绪论
(1)分析各个冬奥会相关网站数据特点,采用分布式网络爬虫技术从互联网爬取冬奥会赛事领域相关数据,进行预处理,并运用深度学习模型和抽取工具进行知识抽取,抽取结构化的三元组知识。

(2)研究基于关系路径的表示学习算法。

针对表示学习模型只对实体之间的直接关系建模而忽略多步关系路径之间的隐含关系,本文对表示学习模型TransD 进行改进,提出PTransDW模型,使用TransD对直接关系建模,利用路径建模获得多步关系路径之间的隐含关系,此外,还引入了关系类型相关的关系权重矩阵,用以提升模型的表示能力。

最后在数据集上验证了模型的性能表现。

(3)构建冬奥会赛事领域的知识图谱。

后台采用Python语言、Neo4j图数据库以及基于Python的Web框架Flask进行开发,前端使用Javascript的Vue.js、D3.js等前端技术实现可视化功能,实现了基于冬奥会赛事领域的知识图谱的构建及其可视化。

1.4 论文组织结构
本文内容一共包含5个章节,论文的组织结构如下:
第一章,绪论。

首先介绍了冬奥会领域知识图谱构建与可视化的研究背景及其意义,其次总结了近年来国内外关于知识图谱的构建以及知识表示学习的发展情况,然后对本文研究目标以及研究内容进行简单介绍,最后对本文的论文组织架构进行了简单的介绍。

第二章,相关理论基础及技术。

阐述了知识图谱构建的关键技术以及理论研究,其中包括数据采集需要的网络爬虫技术,以及知识图谱构建过程中的知识图谱基本概念、知识抽取、知识表示、知识融合、知识存储等技术和理论。

第三章,研究改进的基于关系路径的知识表示学习。

通过对实体间的多步关系建模,并引入与关系类型相关的关系权重矩阵,用以提升模型的表示能力。

第四章,冬奥会知识图谱系统的分析与设计。

介绍了对冬奥会知识图谱系统的分析与设计,其中包括系统可行性分析分析、系统需求分析、系统的功能以及架构设计、数据源与开发环境配置等。

第五章,系统实现与测试。

首先给出了知识图谱构建的具体实现技术,包括数据获取、数据预处理、知识抽取、知识表示、知识融合和知识存储;其次讲述了冬奥会知识图谱可视化模块实现所需的技术,最后给出测试结果与分析。

最后是总结与展望。

相关文档
最新文档