复杂网络聚类算法的研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以及关系数据分析等众多领域。
Nature 2005
14
应用例子1– 聚类分析
15 10 5 0 -5 -10 -10 0 10 20 30
Gaussian similarity function (高斯相似度函数):
aij exp( || xi x j ||2 / )
15
应用例子2
社会网络、语义网络、生物网络分析
30
2.3 启发式复杂网络聚类方法
启发式复杂网络聚类算法的共同特点是:
基于某些直观假设来设计启发式算法,对大部分网络 来说,它们能快速找到最优解或近似最优解,但无法 从理论上严格保证它们对任何输入网络都能在令人满 意的时间内找到令人满意的解。 本报告介绍几个典型的启发式复杂网络聚类算法: 算法 GN(Girvan-Newman) 算法 HITS(Hyperlink Induced Topic Search) 算法 CPM(Clique Percolation Method) 算法 FEC(Finding and Extracting Communities)
22
2.复杂网络聚类方法的研究现状及分析
2.1 复杂网络聚类方法的分类
2.2 基于优化的复杂网络聚类算法
2.3 启发式复杂网络聚类算法 2.4 其它网络聚类算法
23
2.1 复杂网络聚类方法的分类 基于优化的方法 将复杂网络聚类问题转 化为优化问题,通过最优化预定义的目标函 数来计算复杂网络的簇结构。 启发式方法 将复杂网络聚类问题转化为 预定义启发式规则的设计问题。 除以上两类方法之外,还存在其它类型 的复杂网络聚类方法。
29
Guimera - Amaral算法(《Nature》,2005)
1. 2005 年, 吉莫热与阿麦拉尔 (R. Guimera 和 L.A.N. Amaral) 采用与算法 FN 相同的优化目标函数,提出 了基于模拟退火算法 (SA) 的复杂网络聚类算法 GA , 并应用到新陈代谢网络分析中。《Nature》2005年2 月刊报道了该项研究工作。 2. 算法GA的优缺点 GA采用模拟退火控制策略,因此GA具有跳过局 部最优解、找到全局最优解的能力,因而具有很好 的聚类精度。 GA 的效率取决于算法 SA 的效率,而后者通常 收敛很缓慢。 GA 对输入参数非常敏感,不同的参数设置往往 导致不同的聚类结果。
(Nature 2005)
科学家合作网: 每个节点表示 一个科学家, 连接表示科学 家之间的合作 紧密程度。
语义网络 : 每个节点 表示一个英文单词, 连接表示词在某个语 境下共同出现的频率。
16
聚类基因网络
Nature 2003
17
聚类新陈代谢网络
Nature 2005
18
聚类蛋白质网络
(Nature 2005)
Poisson distribution
Power-law distribution
P( X k ) k a
e k P( X k ) k!
11
Network Motif (Science 1999)
Network Motif:在统计意义上,网络中频繁出现的 子图模式。(某些子图在现实网络中出现的概率明显高 于这些子图在随机网络中出现的概率)。
21
1.复杂网络聚类方法的研究背景及意义(续)
由于复杂网络聚类研究具有重要的 理论意义和应用价值,它不仅成为 计算机领域中最具挑战性的基础性 研究课题之一,也吸引了来自物理、 数学、生物、社会学和复杂性科学 等众多领域的研究者,掀起了一股 研究热潮。从 2002 年至今,新的方 法层出不穷,新的应用领域不断被 拓展,不同领域的权威国际杂志和 多个重要国际学术会议多次报道这 方面的研究工作。 复杂网络聚类方法已成为图论、复杂网络、数据挖掘等理论的重要组成部分 和相关课程的核心内容。如康奈尔大学计算机系开设了《The Structure of Information Networks》 课 程 , 麻 省 理 工 电 子 工 程 和 计 算 机 系 开 设 了 《Networks and Dynamics》课程。
(Nature 2008)
该研究提出了一种广义的随机网络模型 (相对于经典的ER随机网络模型): (1)具有更强的表达能力,既能刻画 assortative网络又能刻画disassortative 网络; (2)对于给定的网络,该模型能够精 确的预测出网络中的未知链接或缺失链 接,并能剔除网络中存在的噪音链接。
24
Average cut Ratio cut Normalized cut Kernighan-Lin
Spectral Methods
Local Search
Fast Newman Guimera-Amaral Potts Model with multi-spin states MFC Girvan-Newman Tyler Radicchi HITS Wu-Huberman FEC CPM Correlation coefficient Random walk based similarity Clustering centrality Hall
32
2.3.4 HITS 算法 (Journal of ACM,1999 )
1999年,针对基于链接的网页排名问题,克莱因博格(Kleinberg)等人 提出了著名的HITS算法,该算法也可用于基于内容的网页聚类。
HITS算法基于的基本假设
根据链接关系,WWW中存在权威(authority)和中心(hub)两种基本类型 的页面,权威页面倾向于被多个中心页面引用,而中心页面倾向于引用 多个权威页面。 基于权威--中心页面间相互指向的链接关系,HITS算法通过计算 WWW子图(由查询得到的子图经过扩充而成)对应的某个特殊矩阵 的主特征向量来发现隐藏在WWW中的全部由权威--中心页面构成 的网络簇结构。 该算法与Google的PageRank算法齐名,被包括Altavista在内的多个搜 索引擎所采用。
O(101)
O(103)
O(108)
7
1.复杂网络聚类方法的研究背景及意义
复杂网络已成为当 前最重要的多学科 交叉研究领域之一。 小世界性、无标度 性、网络模体和网 络簇结构是迄今为 止发现的最普遍和 最重要的复杂网络 拓扑结构属性。
8
Small World (Nature 1998)
小世界网络: 具有较小的平均路 径长度,同时具有 较大的聚类系数。
25
Optimization based algorithms Complex networks clustering algorithms Heuristic algorithms
2.1 复杂网络聚类方法的分类
Similarity based methods Hybrid methods
Others
(芽殖酵母菌) 的蛋白质交互网 络
19
动态社会网络簇结构分析
(Nature 2007)
该研究结果发现了维持社会结构稳定性的两个基本原则: 对于大规模社会机构,其成分的动态变化利于维护该机构的稳定性; 20 相反的,对于小规模机构,其成分的固定不变利于维护该机构的稳定性。
基于网络簇结构分析的链接预测
复杂网络聚类方法研究
吉林大学知识工程教研室 吉林大学计算机学院
1
目
录
1.复杂网络聚类方法的研究背景及意义
2.复杂网络聚类方法的研究现状及分析
3.复杂网络聚类所面临的问题
4.我们的工作
5.复杂网络vs时空数据挖掘
2
1.复杂网络聚类方法的研究背景及意义
现实世界中的诸多系统都以网络形式存在, 如社会系统中的人际关系网、科学家协作网 和流行病传播网,生态系统中的神经元网、 基因调控网和蛋白质交互网,科技系统中的 因特网、万维网、通信网、交通网等。由于 这些网络所对应的系统具有很高的复杂性, 因 此 被 统 称 为 “ 复 杂 网 络 (complex network)”。
28
快速Newman算法(《Physical Rev. E》,2004)
1. 2004年,纽曼(M.E.J. Newman)提出了基于局部搜 索的快速复杂网络聚类算法FN. 2. 算法FN简介 FN的优化目标:极大化纽曼与格万(M.E.J. Newman和M. Girvan)于同年提出的网络模块性 评价函数:Q函数. Q 函数定义为簇内的实际连接 数目与随机连接下簇内的期望连接数目之差,用 来定量地刻画网络簇结构的优劣. Q值越大则网络 簇结构越好。 FN算法的时间复杂性: 是O (m n),m和n分别表示网络的连接数和节点 数
Donetti-Munoz
2.2 基于优化的复杂网络聚类方法
2.2.1 谱方法 2.2.2 基于局部搜索的复杂网络聚类方法 2.2.3 其它基于优化方法的复杂网络聚类 方法
26
2.2.1
谱方法(Spectral Method)
谱方法采用二次型优化技术最小化预定义的“截函数”。 当一个网络被划分成两个子网络时,“截”指子网间的 连接密度。具有最小“截”的划分被认为是最优的网络 划分。 谱方法具有严密的数学理论,已发展成数据聚类的一种 重要方法(称为谱聚类法),被广泛应用于图分割和空间点 聚类等领域。 针对复杂网络聚类,谱方法的主要不足是: 1)需要借助先验知识定义递归终止条件,即谱方法不具 备自动识别网络簇总数的能力; 2)现实世界中的复杂网络往往包含多个网络簇,而谱方 法的递归二分策略不能保证得到网络划分是最优的多网 络簇结构。
平均长度:网络中任意两点间最短路径长度的平均值。 聚类系数:节点的任意两个邻居节点仍互为邻居的平均概率
9
Scale-free network (Science 1999)
无标度性:网络的度分布呈现出幂率分布(power law),而 不是随机网络的泊松分布:
P(K) ~ K-a
10
Degree distribution
12
Network Community Structure (Science 2002, Nature 2005, 2007)
网络簇结构(network community structure)具有同簇节点相互连接 密集、异簇节点相互连接稀疏的特点。
13
1.复杂网络聚类方法的研究背景及意义
复杂网络聚类方法的研究对分析复杂网络的拓扑结构、理解复
杂网络的功能、发现复杂网络中的隐藏规律和预测复杂网络的
行为不仅有十分重要的理论意义,而且有广泛的应用前景。 目前已被应用于:恐怖组织识别与组织结构管理等社会网络分
析,围绕新陈代谢、蛋白质交互、未知蛋白质功能预测、基因
调控和主控基因识别等问题的多种生物网络分析,Web社区挖 掘与Web文档聚类,搜索引擎,空间数据聚类,图像分割 ,
3
社会网络(Social Networks)
科学家协作网
移动电话网络
《圣经》对应的社会网络
4
生物网络(Biological Networks)
新陈代谢系统网络 蛋白质交互网络
食物链网络
5
科技网络(Technological Networks)
6
复杂网络分析具有重要研究意义
对于小规模网络,我们可以 通过肉眼观测其形态、特征, 但是对于(超)大规模复杂网 络,我们将很难通过肉眼深 入理解和预测网络的结构、 行为和功能,需要借助各种 复杂网络分析方法。
31
2.3.2 GN算法(PNAS,2002)
2002 年,格万和纽曼 (M. Girvan 和 M.E.J. Newman) 提出了基于 反复识别和删除簇间连接策略的复杂网络聚类算法GN. GN算法的缺点 GN的最大缺点是计算速度慢,边介数计算的开销过大O (m n), GN具有很高的时间复杂性O(m2n),只适合处理中小 规模的网络(包含几百个节点的网络)。 GN算法的意义 在复杂网络聚类研究中,GN算法占有十分重要的地位(该 文被引用超过1000次),格万和纽曼工作的重要意义在于:他 们首次发现了复杂网络中普遍存在的网络簇结构,启发了其他 研究者对这个问题的深入研究,掀起了复杂网络聚类的研究热 潮。
27Biblioteka Baidu
Kernighan-Lin算法(《Bell System Technical Journal》,1970)
1. 1970 年 , 针 对 图 分 割 问 题 克 宁 汉 - 林 (B.W. Kernighan和S. Lin)提出了 KL 算法 ,该算法也可 用于复杂网络聚类。 2. KL算法简介 KL的优化目标是: 极小化簇间连接数目与簇内连接数目之差的绝对 值; KL算法的不足: 找到的解往往是局部最优而不是全局最优解。 KL 对初始解非常敏感,它需要先验知识。 KL算法的时间复杂性: O(tn2),t 表示算法终止时的迭代次数,n表示网络 节点个数。