图数据挖掘技术的研究与进展
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1 期 本定义。
丁悦等: 图数据挖掘技术的研究与进展
183
G = 定义 1 标号( 确定 ) 图。 标号图 G 是一个四元组, ( ( V, E) , L) 。 E) 是一个无向图; V 是图 G 的 ΣV , ΣE , 其中: ( V, 顶点集合; E V × V 是图 G 的边集合; Σ V 和 Σ E 分别是图 G 的 E → Σ E 是一个函数, 节点标号集合和边标号集合 ; L: V → Σ V , 用来对顶点和边分配标号 。 不确定图。 不确定图 UG 是一个五元组 UG = ( ( V, E) , L, P) 。 E) 是一个无向图; V 是图 G ΣV , ΣE , 其中: ( V, 的顶点集合; E V × V 是图 G 的边集合; Σ V 和 Σ E 分别是图 G 的节点标号集合和边标号集合 ; L: V → Σ V , E → Σ E 是一个函 1]是边的存在可能 数, 用来对顶点和边分配标号 ; P: E → ( 0 , 性函数。 边的存在可能性为 1 表示边一定存在。 因此, 确定图 ( 定 义 1 ) 可以看作所有边的存在可能性皆为 1 的特殊的不确定 图。 图 1 是一个不确定图模型。 定义 2
*
Abstract: With the rapid growth of bioinformatics ( protein structure analysis, genome identification) , social networks ( links between entities) , Web analysis ( interlinkage structure analysis, content mining and Web log retrieval) , as well as the complex structure of text information retrievals, mining graph data has become a hot research field in recent years. Some traditional data mining algorithms have been gradually extended to graph data, such as clustering, classification, and frequent pattern mining. In this paper, the authors presented several stateofart mainstream techniques for mining graph data, and gave a comprehensive summary of their characteristics, practical significance, as well as reallife applications on mining graph data. Finally, several research directions on graph data, and particularly, uncertain graph data were pointed out. Key words: data mining; graph data; clustering; classification; frequent pattern; uncertain graph
图数据挖掘技术的研究与进展
丁
1 悦 ,张
阳
1,2 *
,李战怀3 ,王
勇
3
( 1. 西北农林科技大学 信息工程学院 ,陕西 杨凌 712100;
2. 计算机软件新技术国家重点实验室( 南京大学) ,南京 210093;
3. 西北工业大学 计算机学院,西安 710072) ( * 通信作者电子邮箱 zhangyang@ nwsuaf. edu. cn)
0
引言
图是最常用的数据结构之一 , 以描述事物之间错综复杂
点。 难点 1 图边的数量是顶点数量的指数倍 。而具有规模 9 大于 10 顶点和边数量的图数据愈来愈普遍 , 对存储提出了 挑战。 图同构问题一般认为不是 P 问题也不是 NPC 问 题, 虽然它明显是一个 NP 问题。 判断两个大图是否同构非 常困难。而图同构的概念却大量用在相关图挖掘算法中 。 难点 3 由于图的复杂性, 使得图挖掘算法具有较高的 计算复杂性, 基于图的算法很难进行并行化 。 难点 4 很多传统的数据挖掘算法无法应用到图数据 中, 需要重新设计合适的算法 。由于图结构的复杂性, 算法的 设计要求高效性, 并且对实验机器的配置要求较高 。
Research and advances on graph data mining
DING Yue1 , ZHANG Yang1,2 , LI Zhanhuai3 , WANG Yong3
( 1 . College of Information Engineering, Northwest A&F University, Yangling Shaanxi 712100 , China; 2 . State Key Laboratory for Novel Software Technology ( Nanjing University) , Nanjing Jiangsu 210093 , China; 3 . School of Computer Science and Technology, Northwestern Polytechnical University, Xi'an Shaanxi 710072 , China)
Web 分析 ( Web 链接结构分析、 摘 要:生物信息学( 蛋白质结构分析、 基因组识别) 、 社会网络( 实体间的联系 ) 、 Web 内容挖掘和 Web 日志搜索) 以及文本信息检索等的迅速发展积累了大量图数据 , 对于图数据的挖掘逐渐成为研 。 、 、 究领域的热点 一些诸如聚类 分类 频繁模式挖掘的传统数据挖掘研究逐渐拓展到图数据领域 。通过介绍现阶段图 数据挖掘技术的研究进展 , 总结了图数据挖掘的特点 、 现实意义、 主要问题以及应用场景 , 讨论并预测了图数据, 尤其 是不确定图数据研究的发展趋势和热点 。 关键词:数据挖掘; 图数据ห้องสมุดไป่ตู้ 聚类; 分类; 频繁模式; 不确定图 中图分类号: TP393. 41 ; TP301 文献标志码:A
Journal of Computer Applications 计算机应用,2012,32( 1) : 182 - 190 文章编号: 1001 - 9081 ( 2012 ) 01 - 0182 - 09
ISSN 1001-9081 CODEN JYIIDU
2012-01-01 http: / / www. joca. cn doi: 10. 3724 / SP. J. 1087. 2012. 00182
边 接触残基 依赖关系 页面之间的超链接
的关系。在生物技术领域, 图数据挖掘技术可以帮助生物学 家减轻蛋白质结构匹配实验的代价 ; 在小世界 ( 社会 ) 网络分 析中, 对小部分节点的高度局部聚类的挖掘 , 有助于理解如何 、 , 能接触到其他人 设计网络 有利于信息或其他资源的有效传 从而不用太多的冗余连接使网络过载 。 正是由于这些应 输, 用的紧迫要求, 对于图结构数据挖掘的研究已经成为目前数 据挖掘领域的一个重要研究方向 。表 1 列举了一些图挖掘的 应用领域和建模方式。
[14 ] [15 ] 构, 代表的算法有 BANKS 和双向查询算法 。 这些方法 的典型缺陷是由于研究者并不知道图的整体结构 , 也不知道 [12 ]
图1
不确定图模型
定义 3
E1 ) , L1 ) , 子 图。 设 图 G1 = ( ( V1 , Σ V1 , Σ E1 , 图
G2 = ( ( V2 , E2 ) , L2 ) , Σ V2 , Σ E2 , 如果存在 V1 V2 ∩ E1 E2 ∩ L1 = L2 , 则图 G1 是 G2 的子图, 记作 G1 G2 。 E1 ) , 定义 4 图( 子图) 同构。 设图 G1 = ( ( V1 , Σ V1 , Σ E1 , L1 ) , E2 ) , L2 ) , 图 G2 = ( ( V2 , Σ V2 , Σ E2 , 如果存在一个 V1 到 V2 v1j 〉是 的双射函数 f: V1 → V2 , 且 f 满足以下的条件: e1 = 〈v1i , 当且仅当 e2 = 〈f( v1i ) ,f( v1j ) 〉是图 G2 的一 图 G1 的一条边, 条边, 则称 G1 与 G2 同构, 记作 G1 G2 ; 如果存在 G G2 , 且 G1 G , 则称 G1 与 G2 子图同构。 图 2 表明了图同构与子图同构的不同 。 其中: 图 ( b ) 同 构图( a) , 图( c) 子图同构图( a) 。
作而相互转化, 比如删除一个节点或修改边的属性 。 一套标 准的编辑操作包括节点的插入 、 节点删除、 节点替换、 边插入、 Myers 等 基于贝叶斯的 边删除、 边替换等。针对编辑距离, 思想对编辑距离的概率分步进行建模 , 取得了很好的效果; Justice 等[13] 中 第 一 次 提 出 了 基 于 二 项 线 性 规 划 ( Binary Linear Program, BLP ) 计算图编辑距离 ( Graph Edit Distance, GED) 的算法, 并且对于编辑代价的选择给出了一种很好的解 决方案。 2 ) 图数据中的关键字查询 。 基于图数据的关键字查询技术面临越来越多的挑战 , 包 括查询语义学、 排位的准确率、 查询的效率等。 一般地, 图查 从含有相同或类似图 询使用一个图模式( 检索图) 作为输入, 模式的数据库中检索图 , 从而搜索到构成检索图的各个图模 式。针对大规模的图数据库 , 关键字查询技术主要面临两个 挑战: 如何有效地挖掘图结构 、 如何查找包含所有查询关键字 [14 - 16 ] 的子图结构。很多图搜索算法 的关键字查询结果是一 个至少包含每个匹配关键字的节点集合中一个节点的最小有 14 - 16]中, 根树。为了衡量查询结果的好坏 , 在文献[ 采用 分别对每一条边和每一 对最小有根树进行边和节点的分解 , 个节点打分, 然后通过计算这棵树结构的整体得分获得这棵 树的结构信息, 从而作为查询结果的效果度量 。不同于前者, 17] 文献[ 仅仅返回一个节点而并不返回任何包含查询关键 字的子图或子树。总的来说, 图数据的关键字查询算法可以 分为两类。一类是通过挖掘图的连接结构找到匹配的子图结
计算机和服务器 机器之间的互联
1
图数据的定义
在进行图数据挖掘技术的探讨之前 , 先给出图数据的基
与此同时, 图结构的复杂性和特殊性也成为研究中的难
收稿日期:2011-07-12 ;修回日期:2011-09-03 。 基金项目:国家自然科学基金资助项目 ( 60873196 ) ; 中央高校基本科研业务费专项( QN2009092 ) 。 作者简介:丁悦( 1987 - ) , 女, 陕西西安人, 硕士研究生, 主要研究方向: 图数据挖掘; 张阳 ( 1975 - ) , 男, 江苏扬州人, 教授, 博士生导师, CCF 高级会员, 博士, 主要研究方向: 数据挖掘、 机器学习; 李战怀( 1961 - ) , 男, 陕西旬邑人, 教授, 博士生导师, 博士, 主要研究方向: 数据库、 网络存储、 数据挖掘; 王勇( 1973 - ) , 男, 陕西临潼人, 副教授, 博士, 主要研究方向: 数据挖掘、 机器学习。
表1 应用 生物信息学 不同应用领域中实体的图形表示 图形 蛋白质结构 顶点 氨基酸 个体或组织 Web 页面
难点 2
本文通过介绍现阶段图数据挖掘技术的研究进展 , 总结 了图数据挖掘的特点、 现实意义、 主要问题以及应用场景 , 讨 论并预测了图数据, 尤其是不确定图数据的发展趋势和研究 热点。
社交网络 社会关系网络结构 Web 挖掘 Web 浏览模式 网络计算 计算机网络