基于图数据库的RDF数据分布式存储

合集下载

基于关系数据库的RDF数据存储毕业论文

基于关系数据库的RDF数据存储毕业论文

基于关系数据库的RDF数据存储学校: 院系:专业:班级:姓名:学号:指导教师:教师职称:完成日期:___________________________________摘要语义网的发展,引发了对RDF(Resource Description Framework,资源描述框架)的研究热潮。

RDF用来描述语义网中的资源,它是用来描述元数据的数据。

随着RDF应用的发展,对于海量RDF数据的存储和查询也提出了更高的要求。

W3C 组织提出了的SPARQL查询语言草案,被视为未来语义网查询语言的发展方向。

SPARQL的半结构化查询方式与RDF的半结构化特性完美地结合起来。

本论文对RDF与SPARQL进行了深入研究,设计了使用关系数据库来进行RDF数据存储与查询的解决方案方案。

存储方面,将RDF数据结合SPARQL查询语言的格式设计存储结构,方便查询语言进行匹配,利用编码机制存储数据节省了存储空间。

查询方面,将用户提交的SPARQL查询语言转换成等价的SQL语言,提交给关系数据库进行查询,最后将查询结果返回给用户。

本文详细分析了SPARQL 基本图模式,可选图模式,值限制图模式和并图模式,并针对现有的关于查询图模式匹配顺序的分歧,提出了自己的观点以及论据。

最后采用查询操作树将SPARQL查询语言正确转换成SQL语句,并提出了值限制图模式的转换算法。

关键词:RDF、SPARQL、SQL、存储结构、数据处理ABSTRACTWith the developme nt of sema ntic Web,worldwide atte ntio n has bee n profo un dly obta ined to the research boom of RDF(Resource Descripti on Framework)that is the data for describ ing metadata and is used to describe Web resources in sema ntic Web. The storage and query of massive amount of RDF data,as the RDF application developed,dema nds for higher requireme nts.The draft of SPARQL query Ian guage provided by W3C orga ni zati on is con sidered as the future developme nt trend for sema ntic Web query Ian guage.The semi-structured query methods is able to be perfectly comb ined with the semi-structured characteristics of RDF, of SPARQL. This paper is deeply en gaged in the research of RDF and SPARQL has desig ned soluti ons of utiliz ing Relati on Database for stori ng and query ing RDF data.In storage, the pattern of designing storage structure of combining RDF data with SPARQL query Ian guage is able to facilitate the match ing for query Ian guage. En codi ng mecha nism used to store data saves storage space.In query, the SPARQL query Ianguage submitted by users is initially tran sformed to equivale nt SQL Ian guage and subseque ntly delivered to Relati on Database for query, fin ally the query results have bee n retur ned to the users. This paper an alyzes the basic SPARQL graph patter ns, opti onal graph patter ns, map mode and restricted mode.Own opinion as well as its argument has been proposed by detailed analyzing the structure of query map mode and aiming at the recent differences corresponding to the matching sequences of query map mode.UItimately, Operati on tree has bee n in troduced to tran sform complex SPARQL query Ian guage to SQL Ianguage and conversion algorithm has been proposed to convert value limit pattern.Key Words:RDF、SPARQL、SQL、Storage Structure Data Processing目录1. 绪论 (5)1.1研究的背景 (5)1.2研究的现状 (6)1.3研究主要内容 (7)2. RDF数据存储的介绍 (7)2.1 RDF基本概述 (7)2.2 RDF基本模型 (7)2.3 RDF存储模式 (8)2.4 RDF存储语言 (9)3. RDF存储方法分析 (10)3.1使用DFS方法存储三元组 (10)3.2使用BFS方法存储三元组 (11)3.3使用相同谓词值优先的方法改进 (12)3.4使用索引提高效率 (13)4. 实验准备 (14)4.1 RDF数据集 (14)4.2 RDF 查询 (15)5. 实验结果与分析 (17)5.1存储效率实验 (17)5.2查询效率实验 (17)结论 (19)致谢 (19)参考文献 (20)1.绪论1.1研究的背景近年来,万维网(World Wide Web)的信息以惊人的速度增长,涉及的领域不断的扩大,包括生物科学,社会科学等一系列学科的内容,为人们提供了更多的可共享、可传递的信息,但是,数据量的激增导致人们获取所需信息的难度加大。

基于图划分的领域本体RDF存储方法

基于图划分的领域本体RDF存储方法

基于图划分的领域本体RDF存储方法作者:王红王雪君杨蓉来源:《现代电子技术》2018年第24期关键词:标签传播; 图划分; 领域本体; 分布式存储; 民航突发事件; 相似案例中图分类号: TN919⁃34; TP391 ; ; ; ; ; ; ; ; 文献标识码: A ; ; ; ; ; ; ; ; ; ;文章编号:1004⁃373X(2018)24⁃0141⁃05A domain ontology RDF storage method based on graph partitioningWANG Hong, WANG Xuejun, YANG Rong(School of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)Abstract: As the distributed storage of massive RDF graph data cannot effectively maintain the semantic structure integrity of data, a multi⁃level graph partitioning method based on the label propagation and label energy function is proposed. In the method, the ID identification of vertexes is conducted for the RDF graph obtained by parsing the domain ontology. The initial label is assigned to the subject of the instance data. The label propagation method is used to set the label for each vertex,so as to form a vertex set with the similar semantic structure. On this basis, the size of the vertex set is limited by means of multi⁃level graph coarsening and the label energy function, so as to realize semantic partitioning of data. The method is applied to the distributed storage and query for the emergency domain ontology of civil aviation. The edge cut rate is used to analyze and compare the partitioning effect of domain ontology data. The experimental results show that the method can guarantee a high recall rate on the basis of reducing the edge cut rate, and improve the query efficiency of similar emergency cases in civil aviation, which can provide a further methodology support for distributed storage and semantic query of large?scale domain ontology.Keywords: label propagation; graph partitioning; domain ontology; distributed storage; civil aviation emergency; similar case领域本体[1]是指对特定领域内概念及概念间关系的形式化表达,通常可以解析为RDF[2](Resource Description Framework)三元组,而RDF本质上是一种图结构数据,因此可将其以图的方式进行分割存储。

《基于Spark的RDF流数据实时查询系统的设计和实现》

《基于Spark的RDF流数据实时查询系统的设计和实现》

《基于Spark的RDF流数据实时查询系统的设计和实现》一、引言随着大数据时代的来临,实时处理和分析流数据成为一项关键的技术挑战。

流数据的实时查询系统,尤其是对于资源描述框架(RDF)数据而言,已经成为信息管理和数据科学的重要工具。

本篇论文将介绍一个基于Apache Spark的RDF流数据实时查询系统的设计和实现。

二、系统设计1. 系统架构本系统采用分布式架构,利用Spark的强大计算能力和高可扩展性来处理和查询RDF流数据。

系统主要分为三个部分:数据源层、处理层和应用层。

(1)数据源层:负责从各种来源(如传感器、社交媒体等)获取RDF格式的流数据。

(2)处理层:利用Spark的流处理能力,对RDF数据进行实时处理和查询。

(3)应用层:提供用户接口,展示查询结果,并将结果用于实际应用中。

2. 数据模型本系统采用RDF数据模型,通过三元组的形式表示数据,支持复杂的数据关系和语义。

通过这种方式,系统可以有效地处理和存储大规模的RDF数据。

3. 实时处理和查询模块本模块是系统的核心部分,利用Spark的流处理能力对RDF 数据进行实时处理和查询。

通过Spark Streaming的DStream API,可以实时接收和处理来自数据源层的RDF流数据。

同时,利用Spark SQL和GraphX等工具,可以执行复杂的查询和计算任务。

三、系统实现1. 数据源获取本系统支持多种数据源,如文件、数据库、API等。

通过配置文件的方式,可以方便地添加或删除数据源。

对于RDF格式的流数据,系统可以通过解析XML或JSON等格式的文件来获取。

2. 数据预处理在数据进入处理层之前,需要进行预处理操作,如清洗、转换等。

这些操作可以通过编写自定义的Spark函数来实现。

预处理后的数据将转换为Spark的RDD或DStream格式,便于后续的流处理任务。

3. 实时处理和查询本系统支持多种查询方式,如基于关键字的查询、基于图结构的查询等。

《基于Spark的RDF流数据实时查询系统的设计和实现》

《基于Spark的RDF流数据实时查询系统的设计和实现》

《基于Spark的RDF流数据实时查询系统的设计和实现》一、引言随着大数据时代的到来,实时数据处理已成为各行各业的关键需求。

尤其是对于流式RDF(资源描述框架)数据的处理和查询,其实时性和准确性对许多应用领域(如智能推荐、实时分析等)至关重要。

本文将详细介绍基于Spark的RDF流数据实时查询系统的设计和实现。

二、系统设计1. 系统架构本系统采用分布式架构,基于Spark框架进行设计。

系统架构包括数据源层、数据预处理层、Spark处理层和查询服务层。

其中,数据源层负责从各种数据源(如传感器、社交媒体等)获取RDF流数据;数据预处理层负责对数据进行清洗和转换;Spark处理层利用Spark的分布式计算能力对数据进行实时处理;查询服务层则提供实时查询服务。

2. 数据预处理在数据预处理阶段,系统首先对RDF流数据进行清洗和转换,提取出有价值的信息。

这包括去除噪声数据、格式转换、实体识别等步骤。

通过这些预处理操作,系统能够更好地利用Spark进行后续的实时处理。

3. Spark处理层设计Spark处理层是本系统的核心部分,负责实时处理RDF流数据。

这里采用了Spark Streaming技术,通过微批处理的方式对数据进行实时处理。

同时,为了满足实时查询的需求,系统还采用了GraphX和MLlib等Spark组件,实现图计算和机器学习等功能。

三、技术实现1. 数据源接入系统支持多种数据源的接入,如Kafka、Flume等。

通过配置相应的数据源适配器,系统能够方便地从各种数据源中获取RDF 流数据。

2. Spark环境搭建与配置首先需要搭建Spark运行环境,包括安装和配置Spark集群、Hadoop等分布式计算框架。

此外,还需要根据实际需求对Spark 进行配置优化,以满足实时查询的需求。

3. 数据预处理实现在数据预处理阶段,系统使用自定义的清洗和转换算法对RDF流数据进行处理。

这些算法能够有效地去除噪声数据、转换数据格式和进行实体识别等操作。

知识图谱——知识图谱的存储方式

知识图谱——知识图谱的存储方式

知识图谱——知识图谱的存储⽅式
⼀、知识图谱的存储种类
知识存储就是研究⽤采⽤何种⽅式将已有的知识图谱进⾏存储;⽬前知识图谱的存储⽅式有两种,1、基于RDF结构的存储⽅式,2、基于免费开源的图数据库存储,例如Neo4j、JanusGraph、Nebula Graph等。

⼆、存储⽅式的区别
RDF(Resource Description FrameWork,资源描述框架),RDF是使⽤XML语法来表⽰的数据模型。

RDF的功能是⽤以三元组的形式于描述资源的特性以及资源之间的关系,⼀种以⽂本的形式逐⾏存储三元组数据。

图数据库是以图的⽅式来保存的,图数据库的优点在于查询和搜索的速度⽐较快,并且在图数据库中实体节点可以保留属性,这就意味着实体可以保留更多的信息,此外图数据库像其他的关系数据库⼀样有完整的查询语句,⽀持⼤多数的图挖掘算法。

⽬前使⽤范围最⼴的图数据库为Neo4j。

三、两种存储⽅式的对⽐
图数据库RDF
节点存储三元组存储
容易管理容易传输
搜索效率⾼搜索效率低
⽀持查询算法、推理引擎灵活标准推理⽅法
⼴泛⽤于⼯业场景学术界应⽤⽐较多。

基于图数据库的RDF数据分布式存储

基于图数据库的RDF数据分布式存储

A b s t r a c t ㊀㊀R D Fd a t am o d e l h a s n a t u r a l g r a p hs t r u c t u r e ,s o i t s s t o r a g e i ng r a p hs t r u c t u r e c a na v o i dt h e c o n v e r s i o no f R D Ff r o ml o g i c a l d a t a m o d e l t op h y s i c a l d a t am o d e l .Wep r e s e n t ag r a p hd a t a b a s e b a s e dd i s t r i b u t e ds t o r a g es c h e m af o r R D Fd a t a .T h ee m p h a s i si sp u t o nR D F s t r e a m i n gg r a p hp a r t i t i o n i n g ,g r a p hd a t a b a s ed i s t r i b u t e de x t e n s i o n ,a n dc o n v e r t i n gS P A R Q Lq u e r yl a n g u a g et oC Y P H E Rg r a p hq u e r y l a n g u a g e ,e t c .C o m p a r i s o nh a s b e e nm a d eb yt h ee x p e r i m e n t o nt h ep r o c e s s i n gp e r f o r m a n c eo f R D Fd a t as t o r a g es c h e m a sb a s e do nN e o 4 j g r a p hd a t a b a s ea n do nM y S Q Lr e l a t i o n a l d a t a b a s e ,a n dt h ee f f e c t i v e n e s s o f t h ep a r t i t i o n i n ga l g o r i t h mf o r t h eR D Fs t r e a m i n gg r a p hi s v e r i f i e d a s w e l l . K e y w o r d s ㊀㊀G r a p hs t r u c t u r e ㊀G r a p hd a t a b a s e ㊀S t r e a m i n gg r a p hp a r t i t i o n i n g ㊀D i s t r i b u t e ds t o r a g e ㊀G r a p hq u e r yl a n g u a g e

基于面向文档的NoSQL数据库的RDF数据存储实现

基于面向文档的NoSQL数据库的RDF数据存储实现

基于面向文档的NoSQL数据库的RDF数据存储实现作者:卢传耀来源:《电子技术与软件工程》2013年第22期摘要以RDF格式发布的数据在语义Web上越来越多,需要有一个可以有效的存储和查询这些RDF数据的管理方案。

本文设计并实现了基于面向文档的NoSQL数据库的RDF数据存储方案。

该方案可以有效的实现管理RDF数据,并通过相应的索引来提高对数据的查询效率。

实验结果表明,方案对RDF及其语义数据的存储和查询是有效并有性能的优势。

【关键词】RDF 存储 NoSQL MongoDB 语义Web1 引言随着计算机网络的快速发展,语义Web也得到大量的使用和发展,产生了大量的RDF数据。

对于快速有效的存储和查询如此海量的RDF数据,提出了更高的要求。

非关系(NoSQL)数据库技术是最近几年研究和学习热点,它们多数不支持事务的处理,更加关注数据的读取和查询的效率问题。

同时它们的出现是迎合那些对数据的一致性不高但是对读取和查询性能要求高的应用。

基于此,本文设计并实现了一种大规模RDF数据的存储方案,并在基于面向对象文档NoSQL数据库MongoDB上实现包括存储和查询的一系列实验。

实验结果表明,该方案对于大规模RDF数据的存储和查询具有性能的优势。

尤其在性能上优于传统的关系数据库。

2 相关工作RDF数据是以形如(S,P,O)的三元组形式来描述和组织数据的,其中S表示主语,P 表示谓语,宾语用O表示。

主语表示Web的某一资源,谓语表示主语的某一属性或与其他资源的关系,宾语表示谓语的属性值或与之有关系的另一资源。

(S,P,O)三元组中有以下三种形式的数据:统一资源标识符(URI)、字面值(Literal)、空节点(Blank Node)。

MongoDB是面向文档的数据库,是一种非关系型数据库(NoSQL),是一种强大、灵活、可扩展的数据存储方式。

论文中将RDF三元组存储在六张HBase表中,他们分别是S_PO、P_SO、O_SP、PS_O、SO_P和PO_S表。

基于图形数据库Neo4j的RDF数据存储研究

基于图形数据库Neo4j的RDF数据存储研究

N e o 4 j .T h e n u mb e r o f R D F d a t a w a s r e d u c e d s u b s t a n t i a l l y .Me a n w h i l e ,a m u l t i d i m e n s i o n a l i n d e x w a s
Ab s t r a c t :T h e P DF d a t a w e r e s e p a r a t e d i n t o mu l t i p l e d i me n s i o n s i n mo s t e x i s t i n g s t o r a g e mo d e .T h e d a t a w e r e s t o r e d mu h i p l e c o p i e s .T h e s t o r a g e s p a c e wa s u n d o u b t e d l y i n c r e a s e d . An d i t b i r n g s a g r e a t d i f i f c u l t y i n d a t a ma n a g e me n t .I n t h i s p a p e r ,t h e d a t a a r e s t o r e d a s P D F g r a p h i n t h e g r a p h d a t a b a s e
Ke y wo r d s :R D F g r a p h ; N e o 4 j ; ra g p h d a t a b a s e ;d a t a s t o r a g e
0 引言
计 算机 技术 不 断发 展 , 伴 随着 技术 进 步 而 来 的

基于 Hadoop 的 RDF 数据存储及查询优化

基于 Hadoop 的 RDF 数据存储及查询优化
W3C 提出的针对 RDF 数据的标准查询语言,目前被广泛采用。 SPARQL 最常用的是 SELECT 查询方式,它与 SQL 的语法相似[5]。 例如,图 1 给出了一个简化的 SPARQL 查询例子。
块作为输入并在 Map 阶段转化为一系列中间键值对,这些键值 对在 Reduce 阶段被按照相同键值进行合并以及输出。HBase 是 基于 Google BigTable 开发的列式数据库。HBase 中的表无固 定结构,空值不占用存储空间,且表中存储的数据无需预定义 数据类型,具备强大的可伸缩性[7]。
算机能够“理解”网络上的资源,并能实现计算机之间的语义 信息共享。近年来,随着语义网的快速发展,用于表达关于万
a) 提出了基于 HBase 的混合布局存储方案,结合垂直切分 布局和全索引布局,并对数据进行压缩,获取最优的空间和时
维 网 上 资 源 信 息 的 资 源 描 述 框 架 (Resource Description Framework,简称 RDF),其数据量以数亿甚至数十亿元组的规模 大量涌现。根据 Linked Open Data(LOD) 2014 年的统计,该项 目的数据集达到了 1014 个。与 2011 年的统计结果(295 个数 据集,共计超过 310 亿条三元组)对比可以推测出,三元组的 数量现已达到了一个相当大的规模,它们的存储和查询已成为 一个迫切的问题。
SELECT ?X, ?Y, ?Z WHERE{ ?X rdf:typeub:GraduateStudent . ?Y rdf:typeub:University . ?Z rdf:typeub:Department . ?X ub:memberOf ?Z . ?Z ub:subOrganizationOf ?Y . ?X ub:undergraduateDegreeFrom ?Y } 图 1 一个简化的 SPARQL 查询例子

【CN110110034A】一种基于图的RDF数据管理方法、装置及存储介质【专利】

【CN110110034A】一种基于图的RDF数据管理方法、装置及存储介质【专利】

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201910389293.X(22)申请日 2019.05.10(71)申请人 天津大学深圳研究院地址 518000 广东省深圳市南山区粤海街道高新科技园虚拟大学园A216(72)发明人 陈仁海 燕国骅 关启明 冯志勇 (74)专利代理机构 深圳市恒申知识产权事务所(普通合伙) 44312代理人 袁文英(51)Int.Cl.G06F 16/31(2019.01)G06F 16/18(2019.01)G06F 16/13(2019.01)(54)发明名称一种基于图的RDF数据管理方法、装置及存储介质(57)摘要本发明实施例公开了一种基于图的RDF数据管理方法、装置及存储介质,基于待存储RDF数据创建RDF图;将三元组中各元素在RDF图上所对应的节点分别在SSD上不同存储单元中进行存储;在上级节点所存储的存储单元,将包括上级节点相对应的所有下级节点的物理存储地址的物理存储地址列表进行保存,以及将各节点与各节点所存储的存储单元的物理存储地址的对应关系,保存至节点地址索引表。

通过本发明的实施,将RDF数据转化为图数据来管理,更好的保留了RDF数据的结构特征,方便从任何节点探索数据,利于实现全面、可扩展的RDF数据管理,充分利用了SSD的高并行性,极大提高了在SSD上的数据管理性能。

权利要求书2页 说明书8页 附图3页CN 110110034 A 2019.08.09C N 110110034A权 利 要 求 书1/2页CN 110110034 A1.一种基于图的RDF数据管理方法,其特征在于,包括:基于待存储RDF数据创建RDF图;所述待存储RDF数据中所有三元组的各元素均对应于所述RDF图上的一个节点;将所述三元组中各元素所对应的各节点,分别在所述SSD上物理存储地址不同的存储单元中进行存储;在上级节点所存储的存储单元,将包括所述上级节点相对应的所有下级节点的物理存储地址的物理存储地址列表进行保存,以及将各节点与所述各节点所存储的存储单元的物理存储地址的对应关系,保存至节点地址索引表;所述三元组的宾语为谓语的下级节点,所述谓语为主语的下级节点。

基于关系数据库的时态RDF建模

基于关系数据库的时态RDF建模

基于关系数据库的时态RDF建模
韩啸;章哲庆;严丽
【期刊名称】《计算机科学》
【年(卷),期】2022(49)11
【摘要】随着时态数据的不断增加,时态知识图谱的概念得到了普及,如何高效地表示时态知识图谱已成为一个重要的研究方向。

RDF(Resource Description Framework)虽然在传统知识图谱建模中被广泛运用,但其只能表示静态语义,缺乏
表示时态知识图谱的能力,因此已有几种针对时态知识图谱的时态RDF模型被提出。

但这些模型都只是将时态信息简单地附加在谓语或整个三元组上,缺少对时态信息
所属对象的准确定位。

为了更好地表示时态知识图谱,文中提出了一个新的时态RDF表示模型-tRDF。

该模型首先根据宾语的不同类型,选择性地将时态信息附加
在宾语或谓语上;其次,结合时态数据库的概念,给出了一种基于关系数据库PostgreSQL的tRDF数据存储方法;最后,从数据存储的时间和空间两个方面对所
提出的tRDF数据存储方法进行了验证。

实验结果表明,所提方案能有效地表示时
态知识图谱。

【总页数】8页(P90-97)
【作者】韩啸;章哲庆;严丽
【作者单位】南京航空航天大学计算机科学与技术学院
【正文语种】中文
【中图分类】TP399
【相关文献】
1.基于关系数据库的RDFS存储研究
2.T-STAR:一种基于关键词的关系数据库时态信息检索方法
3.基于关系数据库的RDFS存储研究
4.基于双时态RDF模型的索引方法
5.基于邻域结构的时态RDF模型及索引方法
因版权原因,仅展示原文概要,查看原文内容请购买。

基于Hadoop的RDF数据存储策略综述

基于Hadoop的RDF数据存储策略综述

基于Hadoop的RDF数据存储策略综述
杨健;罗军
【期刊名称】《信息安全与技术》
【年(卷),期】2015(0)5
【摘要】随着信息爆炸时代的到来和语义网的快速发展,海量RDF数据存储已成为普遍关注的问题.分布式云计算技术为海量RDF的存储和查询提供了了新的、更高效的解决方案,而基于Hadoop平台的RDF数据存储研究成为了研究焦点.本文对Hadoop在海量RDF数据存储中应用的关键问题进行分析,介绍了现有的基于Hadoop平台的RDF存储系统并将它们进行综合分析,最后对未来发展方向进行了展望.
【总页数】3页(P46-48)
【作者】杨健;罗军
【作者单位】重庆大学计算机科学与技术学院重庆400044;重庆大学计算机科学与技术学院重庆400044
【正文语种】中文
【相关文献】
1.基于Hadoop的大规模RDF语义数据应用平台 [J], 肖宝;李璞;胡文君;韦丽娜
2.基于Hadoop生态系统的大数据解决方案综述 [J], 陈吉荣;乐嘉锦
3.基于Hadoop的RDF数据存储及查询优化 [J], 徐德智;刘扬;Sarfraz Ahmed
4.基于 NoSQL 的 RDF 数据存储与查询技术综述 [J], 王林彬;黎建辉;沈志宏
5.基于Hadoop和双密钥的云计算数据安全存储策略设计 [J], 凃云杰;白杨
因版权原因,仅展示原文概要,查看原文内容请购买。

基于P-Rank的RDF有向图的分布式存储

基于P-Rank的RDF有向图的分布式存储

基于P-Rank的RDF有向图的分布式存储
冷泳林;申华;鲁富宇
【期刊名称】《重庆理工大学学报(自然科学版)》
【年(卷),期】2015(029)001
【摘要】随着语义网数据的迅猛增长,RDF大数据存储成为数据存储领域研究的热点问题,而分布式存储是解决RDF大数据可扩展性的一种有效途径,数据分割则是实现分布式存储的关键.利用图聚类思想实现RDF数据的有效分割,基于RDF数据模型的图特性,首先利用P-Rank节点相似度算法计算RDF图结点间的相似度,然后使用AP聚类算法对相似度矩阵进行聚类,进而实现RDF数据的分割和分布式存储.实验结果表明:该方法能有效完成RDF数据的聚类分割,使得聚类结果中类间相似度较小,而类内相似度较大.
【总页数】5页(P91-95)
【作者】冷泳林;申华;鲁富宇
【作者单位】渤海大学信息科学与技术学院,辽宁锦州121000;鞍山师范学院数学与信息科学学院,辽宁鞍山 114005;渤海大学教务处,辽宁锦州121000
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于P-Rank的RDF有向图的分布式存储 [J], 冷泳林;申华;鲁富宇;
2.基于图数据库的 RDF数据分布式存储 [J], 项灵辉;顾进广;吴钢
3.一种大规模RDF语义数据的分布式存储方案 [J], 姜龙翔;王鑫;李旭;冯志勇
4.海量RDF数据的分布式存储研究 [J], 郭亨亨;赵文静
5.基于RDF的云制造资源数据分布式存储的研究 [J], 鲁超;王中杰
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

图2 ㊀R D F数据集到图数据模型的映射
2 . 3 ㊀分布式存储
为支持分布式存储, 存储层各个 R D F数据存储节点相互独 立, 在其之上增加一层逻辑处理层, 往系统存入 R D F数据时, 记 录这个 R D F数据的存储位置; 查询 R D F数据时, 先获取所查 R D F数 据 可 能 的 存 储 位 置, 然后到对应的存储节点上进行 查询。 系统需要存储两类数据, 一类是元数据, 主要为 R D F数据
3 ] 性不强。目前 N o S Q L数据库 [ 成为了数据库领域的焦点, 由于
构, 若想满足较高的查询性能, 设计存储方案时需要设计多张表 以满足不同的 R D F查询方式, 即以牺牲存储空间为代价, 高查 询性能与低数据冗余不能同时满足, 因此基于关系数据模型的 存储方案不适用于大规模 R D F数据管理。 N o S Q L数据库摒弃了关系型数据库严格的表结构, 数据模 式简单, 适用于非结构化、 半结构化的大规模数据处理。文献 [ 7 ] 提出了基于 H B a s e 的海量 R D F数据存储方案, H B a s e 的表 模型是不固定的, R D F数据集中对一个资源的描述可用表中的
[ 1 5 ] 的存储位置信息, 本文用 R e d i s 数据库, 这是 K e y V a l u e 型内
开源图形数据库, 但其不支持分布式存储; ( 2 )对 R D F数据集 进行分割时应从图模型视角出发, 以划分子图的形式, 而不是以
[ 1 3 ] 哈希进行简单的映射, M E T I S 是当前比较成熟的一个图分割
2 0 1 4年
一行来存储, 资源的各个属性对应该行的各个列, 另外 H B a s e 本 身支持分布式存储, 因此适用于大规模 R D F数据。其在实验部 分验证了性能优于基于 M y S Q L数据库的存储方案。 若将 R D F三元组看作带标签的边, R D F数据很自然地符合 图模型结构, 图模型符合 R D F模型的语义层次, 可以最大限度 地保持 R D F数据的语义信息, 另外如果以图的方式来存储 R D F 数据, 可以借鉴成熟的图算法来优化 R D F数据的推理查询。文 献[ 8 ] 比较了各种抽象存储模型( 如关系数据模型、 语义模型、 面向对象数据模型等) 与R D F数据模型之间的关系, 重点关注 了图数据库模型, 另外, 还讨论了现有的 R D F查询语言对图数 据查询的适应能力, 以及图数据库查询语言对 R D F数据的适用 性。文献[ 9 ] 提出用图结构存储 R D F数据的优点在于: ( 1 ) 图 结构能够直接映射 R D F模型, 避免了为适应存储结构对 R D F 数据进行转换; ( 2 ) 查询 R D F数据的语义信息需要重构 R D F 图, 以图结构存储 R D F数据避免了重构。他们以具体的实现方 案论证了其有效性。 以图结构方式存储 R D F数据需要考虑一些问题, 主要为以 下几个方面: ( 1 )大规模 R D F数据需要分布式存储支持, 目前
, R D F 作为个综合性的框架来整合不同领域的元数据, 促 进网络资源的自动化处理。近年来 R D F数据集的规模在不断 扩大, 几乎以每年翻一番的速度在快速地扩充, 如何高效地查询 以及分布式存储大规模 R D F数据成为了语义网领域的一个研 究热点。 传统的方 法 是 以 关 系 数 据 模 型 或 对 象 数 据 模 型 来 看 待 R D F数据, 在存储层用关系型数据库或面向对象数据库来存储 R D F数据, 但R D F数据的无模式特性, 使得基于关系型数据库 的存储方案存在诸多限制, 而且对大规模的 R D F数据管理适应
存数据库, 读取速度快, 且支持持久化, 存储时以资源 I D 、 属性 I D作为 K e y , 存储位置作为 V a l u e 。另一类是 R D F数据, 本文用 N e o 4 j 图形数据库, 存入一条 R D F语句将往图数据库中插入两 个顶点及两顶点之间的一条边, 并以资源 I D 、 属性 I D分别对顶 点、 边建立索引, 查询时利用索引可直接定位到某个顶点或边。
0 ㊀引㊀言
语义网提供了一种在不同的应用和个体之间共享和重用数 据的整体框架
[ 1 ]
1 ㊀研究背景和相关工作
关系型数据库管理系统在数据管理方面已有成熟的商业软 件产品, 而且 R D F数据的三元组模型很容易映射成关系模型, 因此大量研究者尝试了使用关系数据模型来设计 R D F存储和
4 - 6 ] 检索的方案 [ ,但是由于关系型数据库严格的固定的表结
A b s t r a c t ㊀㊀R D Fd a t am o d e l h a s n a t u r a l g r a p hs t r u c t u r e ,s o i t s s t o r a g e i ng r a p hs t r u c t u r e c a na v o i dt h e c o n v e r s i o no f R D Ff r o ml o g i c a l d a t a m o d e l t op h y s i c a l d a t am o d e l .Wep r e s e n t ag r a p hd a t a b a s e b a s e dd i s t r i b u t e ds t o r a g es c h e m af o r R D Fd a t a .T h ee m p h a s i si sp u t o nR D F s t r e a m i n gg r a p hp a r t i t i o n i n g ,g r a p hd a t a b a s ed i s t r i b u t e de x t e n s i o n ,a n dc o n v e r t i n gS P A R Q Lq u e r yl a n g u a g et oC Y P H E Rg r a p hq u e r y l a n g u a g e ,e t c .C o m p a r i s o nh a s b e e nm a d eb yt h ee x p e r i m e n t o nt h ep r o c e s s i n gp e r f o r m a n c eo f R D Fd a t as t o r a g es c h e m a sb a s e do nN e o 4 j g r a p hd a t a b a s ea n do nM y S Q Lr e l a t i o n a l d a t a b a s e ,a n dt h ee f f e c t i v e n e s s o f t h ep a r t i t i o n i n ga l g o r i t h mf o r t h eR D Fs t r e a m i n gg r a p hi s v e r i f i e d a s w e l l . K e y w o r d s ㊀㊀G r a p hs t r u c t u r e ㊀G r a p hd a t a b a s e ㊀S t r e a m i n gg r a p hp a r t i t i o n i n g ㊀D i s t r i b u t e ds t o r a g e ㊀G r a p hq u e r yl a n g u a g e
收稿日期: 2 0 1 3- 0 3- 1 1 。国家自然科学基金项目( 6 0 8 0 3 1 6 0 ) ; 国 家社会科学基金重大计划项目( 1 1 & Z D 1 8 9 ) ; 湖北省自然科学基金重点 计划项目( 2 0 0 9 C D A 1 3 6 , 2 0 0 9 C D A 0 3 4 ) 。 项灵辉, 硕士生, 主研领域: 语 义网与分布式计算。顾进广, 教授。吴钢, 硕士生。
[ 1 0 ] 有几款较成熟的分布式图形数据库, 例如 I n f i n i t e G r a p h 、 T r i n i [ 1 1 ] [ 1 2 ] t y 等, 但它们都是商业型数据库, N e o 4 j 是一个比较成熟的
R D F数据集由很多 R D F语句组成, 每条 R D F语句是一个 三元组 < 主体, 属性, 客体 > , 其中主体是被描述的资源, 客体表 示主体在属性上的取值, 可以是另外一个资源或者是文本。若 从图数据模型视角看, 主体、 客体对应图中的顶点, 属性对应图 中的一条有向边, 一条 R D F语句对应于图中的两个顶点、 从主 体顶点指向客体顶点的一条有向边。映射关系如图 2所示。
项灵辉㊀顾进广㊀吴㊀钢
( 武汉科技大学计算机科学与技术学院㊀湖北 武汉 4 3 0 0 6 5 ) ( 武汉科技大学智能信息处理与实时工业系统湖北省重点实验室㊀湖北 武汉 4 3 0 0 6 5 )
摘㊀要㊀㊀R D F数据模型具有天然的图结构, 因此以图结构存储可以避免 R D F逻辑数据模型到物理数据模型的转换。基于图数据 库的 R D F数据分布式存储方案, 重点讨论 R D F图数据流分割、 图数据库分布式扩展、 S P A R Q L查询语言转 C Y P H E R图形查询语言 等。实验对比了基于 N e o 4 j 图数据库与基于 M y S Q L关系型数据库的 R D F数据存储方案的处理性能, 并验证了 R D F图数据流分割 算法的有效性。 关键词㊀㊀图结构㊀图数据库㊀图数据流分割㊀分布式存储㊀图形查询语言 中图分类号㊀T P 3 1 1 ㊀㊀㊀㊀文献标识码㊀A ㊀㊀㊀㊀D O I : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 0 3 8 6 x . 2 0 1 4 . 1 1 . 0 0 9
D I S T R I B U T E DS T O R A G EF O RR D FD A T AB A S E DO NG R A P HD A T A B A S E
相关文档
最新文档