图数据的管理与挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
特邀编辑:王海勋微软亚洲研究院
图数据的管理与挖掘
不论是工业界还是学术界,对大数据的关注可谓方兴未艾。在未来很长一段时间内,这种关注还将持续。原因有两方面。首先,大数据对于改变整个业界乃至改变人类的生活将起到非常重要的作用;其次,目前我们对大数据的思考和研究还仅仅停留在数据量非常大这个层面上,工业界和学术界还没有开始应对大数据带来的真正挑战。
虽然如何对大数据进行操作是一个非常关键的问题,但大数据的真正价值在于数据之间非常高的相关性(connectedness )。正是这种相关性,使得数据挖掘和分析变得有意义,从而使大数据变得有意义。
根据数据量的大小和数据内部的相关程度,我们可以对数据进行分类。一般来说,数据量的大小可以用记录数(关系型数据库)或文件数(文本数
关键词:图数据管理 图数据库系统 图算法
据库)来衡量,而数据的连接程度则可以通过数据记录之间关系的数目来衡量。一个图数据库的数据量的大小对应的是节点的数目,而数据关联性的强弱对应的则是图中边的数目。
传统的关系型数据库所能处理的仅仅是量较小并且关联性较弱的数据。目前对大数据关注比较多的是数据的量,即图1中纵轴所示。现有的大数据系统,比如基于MapReduce 的Hadoop ,基本上是处理巨量数据的系统,但在处理数据之间的复杂关系的时候往往力不从心,原因在于众多的关系会带来大量的连接(join )操作,而大量的连接操作连成熟的关系型数据库系统(relational database manage-ment system ,RDBMS )都不能胜任,更不要说依赖分布式数据拷贝的MapReduce 系统了。
图数据研究重点关注的是数据的关联性。图Facebook 上的图数据。现这种趋势随着应用及数据的日趋复杂变得愈来愈明显。目前,很多图数据仍然是由关系型数据库管理。然而,应用需求已经不再局限于事务性的操作(transactional processing ),而是更加重视如何有效地从数据中获得有价值的信息。这势必使数据的关联性得到更多关注。对于大量的关联性操作(multi-way join operations )来说,关系型数据库的处理能力有限,因此作为非关系型数据库NoSQL 重要分支的图数据库应运而生。
目前,对图数据的研究仍然处于起步阶段。研究人员提出了很多新颖的图算法,其中很多算法
数据量与数据相关性的关系示意图
Column Store
Document Store
Typical RDBMS
Graph DB
Data connectedness
是针对大规模数据图提出的,包括图数据的特性分析、图的生成、节点连接性判定(reachability )、相似子图查询、图的查询语言和图上的关键字查询等等。但是,对图数据的研究不应只停留在算法层面。单一的算法依赖很多假设。例如,假设存在某种特定的索引(index ),或者假设图数据是以某种特定的方式(比如向量及矩阵方式)存储的。不同的算法很有可能依赖完全不同的假设,而这些假设往往不能共存,这就意味着这些算法不能共存,这势必影响我们处理大规模图数据的能力。因此,对图数据的研究要特别关注对系统的研究,即如何开发一个图系统,以便能更有效地支持在图数据上进行一些基本操作,并且大量的图算法都是可以用这些基本操作实现的。要做到这一点,我们就必须研究图本身的性质和图算法的性质,特别是算法在图数据上的访问模式(data access pattern ),从而开发出开放的图数据库系统。这样的发展思路有可能和当年关系型数据库的发展思路一致。
在本期专题中,我们邀请了工业界和学术界的研究人员就图数据的管理和挖掘这一主题撰文发表他们的看法,围绕系统和算法两个方面展开讨论。
在系统方面,复旦大学的冯国栋和肖仰华撰写了《大图的分布式存储》,介绍了图存储的基本概念及其核心技术——图划分。由于图数据的访问模式基本是随机访问而不是顺序访问,使得图系统如何使用内存成为一个关键问题。由于内存有限,
因此分布式内存成为一种有效的方式。在这种情形下,图的划分变得十分重要。香港科技大学的李亚韬和微软亚洲研究院的邵斌等撰写的《基于哈希存储器的大图生成器》是系统工作的一个重要组成部分。首先,需要理解真实图的数据分布;其次,需要在和真实图类似(数据分布)的图上检验我们的算法。该文介绍了一个实时算法,即图在生成之后是立即可用的,而不是存在于一种特定的格式(如文本格式),需要导入到图系统中。事实上,该大图生成器是对大规模图数据更新功能的检验。
在算法方面,香港中文大学的祝园园、秦璐和于旭撰写的《图匹配问题的应用和研究》介绍了经典问题——图匹配问题的研究和挑战。北京航空航天大学的马帅、李佳、刘旭东和怀进鹏的文章《图查询:社会计算时代的新型搜索》介绍了目前图查询领域的主要研究问题和挑战。北京大学的邹磊和中国人民大学的陈跃国撰写的《海量RDF 数据管理》详细介绍了一个图数据库的应用、资源描述框架(resource description framework ,RDF )数据的存储和检索。■
王海勋
微软亚洲研究院高级研究员。主要研究方向为数据库、图系统和算法、数据挖掘、知识库和语义网络。haixunw@
CCF@U120:袁晓如走进太原理工大学
2012年10月9日,“CCF 走进高校”系列活动走进太原理工大学。CCF YOCSEF 主席、北京大学
袁晓如研究员为师生带来了“走出数据丛林——大数据可视化与可视分析研究”的学术报告。CCF YOCSEF 学术秘书、北京航空航天大学副教授胡春明,CCF YOCSEF AC 委员齐红威也为师生们作了有关大数据的精彩演讲。太原理工大学副教授强彦主持了本次报告会。太原理工大学计算机学院青年
教师和100多名CCF 学生会员聆听了演讲。
太原理工大学前身是创立于1902年的国立山西大学堂西学专斋,是我国最早成立的三所国立大学之一。经过百余年的传承与发展,学校业已建设成为一所以工为主,理工结合,多学科协调发展的高等学府,是国家“211工程”重点建设大学。