社会网络中的Gnutella对等网络数据集分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会网络中的Gnutella对等网络数据集分析
姓名:鞠雪琴
学号:1401384
班级:计算机应用技术15班
Gnutella对等网络数据集分析
一.概述
本文对2002年8月24号Gnutella对等网络数据集进行分析,总共有9个Gnutella 网络快照,节点代表在Gnutella对等网络拓扑中的主机数,边代表主机之间的联系。数据格式为TEXT,数据的详细介绍如下:
二.数据资料
将数据集用表格打开,另存为CSV格式后,就可以用Gephi打开了,Gnutella对等网络数据集在分析软件Gephi中部分节点存储的数据格式如图2.1所示,边存储的数据格式如图2.2所示。
图2.1 节点存储数据格式
图 2.2 边存储数据格式
三.概览
1.排序
将Gnutella对等网络数据集导入到分析软件Gephi中,设置度的最小尺寸为1,最大尺寸为47;按节点的度进行排序得到的网络图如图3.1所示,图中节点较大颜色较深是度
比较大的节点。
图 3.1 按节点的度排序的有向图
2.模块化与分割
按节点的块模型进行分割得到的网络图如图3.2所示,图中节点较大颜色较深是所属社
团较大的节点,且相关联的节点以及它们的边具有相同的颜色。
图 3.2 模块化分割后的有向图
四.布局
在分析软件Gephi中有6个主要的布局工具分别是:Force Atlas、Force Atlas2、Fruchterman Reingold、Yifan Hu、Yifan Hu比例、Yifan Hu多水平,下面分别介绍这六种布局方法,以及Gnutella对等网络数据集在这些布局方法中的变化情况,本小节的图都是在图3.2的基础上进行布局算法的。
1.Force Atlas及Force Atlas2
Force Atlas及Force Atlas2为力引导布局,力引导布局方法能够产生相当优美的网络布局,并充分展现网络的整体结构及其自同构特征,所以在网络节点布局技术相关文献中该方法占据了主导地位。
力引导布局即模仿物理世界的引力和斥力,自动布局直到力平衡;Force Atlas布局使图更紧凑,可读性强,并且显示大于hub的中心化权限(吸引力分布选项),自动稳定提高布局的衔接。图4.1为运行Force Atlas布局得到的Gnutella对等网络分布图;图4.2 为运行ForceAtlas2布局得到的Gnutella对等网络分布图,其中行为替代参数选择:劝阻Hubs,LinLog模式,防止重叠,我们可以看到每个节点在向外拉升。
图4.1 Force Atlas布局图
图4.2 ForceAtlas2布局图
2.Fruchterman Reingold布局
Fruchterman和Reingold基于再次改进的弹性模型提出了FR算法。该算法遵循两个简单的原则:有边连接的节点应该互相靠近;节点间不能离得太近。FR算法建立在粒子物理理论的基础上,将图中的节点模拟成原子,通过模拟原子间的力场来计算节点间的位置关系。算法通过考虑原子间引力和斥力的互相作用,计算得到节点的速度和加速度。依照类似原子或者行星的运动规律,系统最终进入一种动态平衡状态。
图4.3 Fruchterman Reingold布局
3.Yifan Hu多水平布局
Yifan Hu、Yifan Hu比例、Yifan Hu多水平为胡一凡布局,Yifan Hu多水平布局[1]适用于非常大的图形,特点是粗化图形,减少计算量,运行速度比较快;图4.4为运行Yifan Hu多水平布局得到的网络分布图。
图4.4 Yifan Hu多水平布局(1)
图4.4 Yifan Hu多水平布局(2)——由(1)进一步得到五.网络特征值
将数据集导入到分析软件Gephi后,计算和统计网络的一些特征值:
1.基本信息:节点数6324、边数20801,网络为有向图。
2.平均度为
3.289,图5.1,5.2,5.3为网络节点度的分配图。
图5.1 平均度分配图
图5.2 入度分配图
图5.3 出度分配图
3.网络直接和平均路径长度
(1)网络直径是指网络任意两节点间距离的最大值。Gnutella对等网络直径是20。
(2)网络平均路径长度是所有点对之间的最短路径的算术平均值。Gnutella对等网络的平均路径长度是6.632。Gnutella对等网络的最短路径数:13152226.
(3)介数中心度是度量一个节点出现在网络中最短路径上的频率。Gnutella对等网络的介数中心度分布图如图5.4所示。
(4)紧密中心度是从一个给定起始节点到所有其他节点的平均距离。Gnutella对等网络的紧密中心度分布图如图5.5所示。
(5)离心率是从一个给定起始节点到距其最远节点的距离。Gnutella对等网络的离心率分布图如图5.6所示
图5.4介数中心度分布图
图5.5紧密中心度分布图
图5.6离心率分布图
六、分析和结论
在Gnutella分布式对等网络模型中,每一个联网计算机既是客户机同时又是服务器,因此被称为对等机,通过与相邻对等机之间的连接遍历整个网络。Gnutella网络模型中每个对等机在功能上都是相似的,并没有专门的服务器。
通过了解网络中节点和边的含义,在分析软件Gephi中改变网络图的布局,观察不同的布局图,统计网络图的一些特征值并了解其含义,分析出Gnutella对等网络的一些特点[2]。
1.Gnutella对等网络的优势
1)拥有丰富的信息资源
任何 Gnutella网络用户能够扫描活动节点并搜索需要的信息,然后直接从这个节点上下载信息。用户可以在他们的机器上把下载的信息共享出来,这样,请求率高的文件能够很快地在许多节点上扩散开来,从网络的各种布局方法和特征值可知,信息能够很快地在