空间网络的数据挖掘和应用 (1)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

络中所包含的内在科学规律,学者们结合空间数据挖掘等方法展开了相应的研究。

空间网络的特征

空间网络是节点位于具有度量的空间上的网络,一般来说是二维空间,通常的度量方式是欧式距离[2]。在这些网络中,节点包含了位置信息,连接边包含了距离或者是空间关系信息。例如在社交网络中,节点包含了该个体的位置信息,连接边长包含了朋友间的地理距离信息;又如在城市路网中,如果将路段看作节点,若路段与路段之间有交叉口,则两点相连,这时连接边就包含了空间相邻关系。空间网络的连接不一定是嵌入空间的,例如社交网络、航空网络,因此它不等同于平面网络,但是很多空间网络却具有平面性,例如公路网、铁路网、电力网等。

学者们从图论的角度对空间网络进行研究,发现许多空间网络具有复杂网络的特征。例如对印度铁路和航空网络的分析均发现了网络的小世界属性[3,4];对城市路网和城市交通流的研究发现了城市交通的幂律分布,交通最繁忙的20%街道承载了80%的交通流[5,6]。由于这些空间现象中存在着复杂网络的特征,人们开始用复杂网络的方法解决空间网络的问题。克鲁奇蒂(Cru-citti)等人研究了不同城市路网的四种中心性指标,发现用这四种中心性指标能够反映城市的结构,而且可以通过中心性指标的分级聚类判断城市的规划和组织模式——自组织的城市具有复杂网络的无标度特征,而有规划的城市没有这样的特征[7]。对中国航空网络中心性以及客流量的研究发现,航空网络中城市的中心性和吸引力与城市的人口、社会经济指标高度相关[8,9]。

与一般的复杂网络相比,空间网络还具有独特的空间上的特征。在这些网络中节点之间的距离与它们的连接强度有关,因而对网络的拓扑属性有重要的影响。2011年手机照片社交网络软件Color提出了“弹性社交网络”这一新概念(参见Mobile 2.0网

引言

在我们生存的空间,事物之间密不可分的联系好似千丝万缕将其连接起来,形成各种巨大的网络。长久以来,大量探索自然的研究都是将整个世界不断地拆分,去分析理解各个部件,却不知道如何再把它们组装起来[1]。我们似乎往往是知道了方方面面的知识,却依然对整个系统一无所知。究其原因是我们忽视了对事物间连接关系的研究。专门研究连接关系的理论——复杂网络,恰好为从表面看来杂乱无章的复杂系统提供了有力有效的分析方法。

很多复杂网络都是构建在地理空间之中的。最典型的是交通网络,如城市路网、航线网络、铁路网络,还有社交网络、手机通讯网络等。基于托普勒地理学第一定律(Tobler’s First Law of Geography):越接近的事物越相关。涉及到地理现象和人类活动时,复杂网络表现出空间上的相关性或随距离变化的特征。为了能够清晰地诠释这类空间复杂网许 珺 陈 娱 徐敏政

中国科学院地理科学与资源研究所

空间网络的数据挖掘和应用关键词:空间网络 数据挖掘 异构信息网

站,2011)。所谓“弹性”是指每当Color 监测到你与其他用户地理位置接近时,就会调整你们原本的关系强度,将关注同一事件并在附近的人通过群组的方式划分,进而构建社区。弹性社交网络从侧面反映出人们关系的强度与人们地理位置的接近程度是有关系的,人与人之间的关系随着地理位置的远近是“可松可紧”的,而越接近的人成为一个群组的可能性越大。

借助互联网,在虚拟社交网络中人们的“距离”被拉近了。这种距离突破了地理的限制,相隔千里仍然可以即时交流或者一起参加线上活动。表面上看,托普勒地理学第一定律在社交网络中失效了。然而,在社交网络中,用户的地理位置潜移默化地影响着社交网络的构成、动态演变与信息传播。从多个虚拟社交网站的数据中发现人们会更倾向于与周围的人相识,这与现实世界的现象一致。多个研究表明在

社交网络中,地理距离d 与两人互为朋友的概率P (d )相关,符合距离衰减函数:

P (d )~d -α。即两人越近越有

可能是好友,而随着距离的增加,两人互

为好友的概率

降低(图1)。只是在不同的数据中衰减系数α值不同。在Liben-Nowell(立本-诺埃尔)等人对超过100万节点的社交网络数据(美国LiveJour-nal 网站数据)的研究中,得到

的α值约为1[10];朗姆比奥特(Lambiotte)等人对比利时地区的

手机通讯数据展开了研究,其α值约为2[11];而在翁尼拉(Onnela)等人对比利时手机通讯数据的研

究中,α值约为1.5[12]。由于连接概率随距离的衰减,网络中三角形的数量也会呈现随距离衰减的趋势。塞拉托(Scellato)等人

采用改进的加权聚类系数对几个著名的社交网站数据进行了分析对比,发现考虑地理距离之后,网络的聚类系数变小[13]。空间网络数据挖掘

复杂网络都具有社区结构的性质,即整个网络是由若干个“群”或者“团”构成的,社区

内部节点连接相对紧密而社区之

间的连接相对比较稀疏(如图2所示)。对网络的社区发现有助于发现具有共性的群体,是网络数据挖掘的重要方法。对于具有

复杂网络特征的空间网络,节点之间的紧密度除了需要衡量连接关系上的紧密性,还需要考虑到它们地理距离上的远近。

复杂网络的社区发现

复杂网络的社区发现,也叫图的聚类(graph cluster)或者图的分割,是根据网络结构和节点属性的相似性,将网络中的节点进行分组的方法。将任意特征空间的点集表示为一个加权的无方向图形G =(V , E ),其中特征空间的点为图形的节点,而图形的边的权重就代表任意两点之间的相似性,用w (i , j ) 来表示。对图形

的分组就是要将V 划分为点集

V 1, V 2, ⋯ , V m ,使得V i 中节点

的相似性最大,而V i , V j (i ≠j )之间节点的相似性最小。根据算

法的基本思想,主要可分为图形分割算法(例如拉普拉斯谱平分算法、柯林汉-林(Kernighan-Lin)算法等)和分级聚类算法(例如GN

算法、纽曼快速算法等)两

图1

 某社交网站数据中用户距离和连接概率的关系图2 社区结构示意图(不同的颜

色代表不同社区)

相关文档
最新文档