基于树核度的社交网络影响最大化问题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于树核度的社交网络影响最大化问题
朱恩强;吴艳蕾;许宇光;牛云云
【摘要】社交网络中的影响最大化问题是指对于给定的k值,寻找k个在特定传播模型下能够使得传播范围达到最大的节点.此问题在常用的几种传播模型中都是NP-难的.目前虽然已经有很多近似求解的算法,但如何在较低的算法时间复杂度下,保证较大的传播范围仍然是求解该问题的一个挑战.为此,本文提出了一种新颖的基于图的树核度理论的方法来求解社交网络影响最大化问题,并相应地给出了一个多项式时间的算法.所提算法综合考虑了网络的结构特征和传播特征.另外,我们将该算法与传统的随机、度以及贪心算法进行了比较.实验结果表明,所提算法可以较快地找到能够使得传播范围较大的节点集合.
【期刊名称】《电子学报》
【年(卷),期】2019(047)001
【总页数】8页(P161-168)
【关键词】树核度;树核;社会网络;算法;影响最大化;传播模型
【作者】朱恩强;吴艳蕾;许宇光;牛云云
【作者单位】广州大学计算科技研究院,广东广州510006;北京大学信息科学技术学院,北京100871;北京大学信息科学技术学院,北京100871;北京大学信息科学技术学院,北京100871;北京大学信息科学技术学院,北京100871
【正文语种】中文
【中图分类】TN95
1 引言
社交网络是由代表人(或组织)的节点构成的复杂社会结构.它用来描述群组中个体之间的关系和交互[1],是它的成员之间进行信息,思想,以及影响的传播的基本介质.作为社交网络分析的一个方面,研究信息传播和扩散是非常有价值的.通过对社交网络中有益信息扩散机制的认识,我们可以更好地知道如何使它们传播的更快更广.同时,通过对社交网络中有害信息扩散机制的了解,还可以使我们更早更有效地对它们进行预防从而阻止它们传播到更大的范围.
为研究社交网络中信息的传播和扩散过程,我们需要挖掘最具影响力的某些用户.这就是社交网络中的影响最大化问题,即如何选择k个初始活跃节点,使得从这些节点开始传播信息,在传播过程结束后,信息传播的范围能够达到最
大.Domingos和Richardson[2,3]最早将影响最大化问题引入社交网络,并结合概率方法将此问题归纳为一个算法问题.Kempe等人[4,5]把这个问题描述成离散优化问题,并证明此优化问题是NP-难的.他们提出了一种贪心算法近似地计算最优解,并证明所求近似解能保证约63%接近最优解.但是使用该方法计算传播范围时效率不高,耗时较多.为此,Leskoves[6]提出了“Lazy-forward”的思想来优化算法的速度.为有效地计算社交网络中信息传播的范围,学者们还提出了基于独立级联模型的SPM算法和PMIA算法[7],MIA和PMIA模型[8],基于社区[9]和路径[10]的方法等.另外,关于应用启发式方法研究影响最大化问题,Chen等人[11]在独立级联模型中提出了“Degree Discount”方法,Jiang等人[12]利用模拟退火法启发式求解,Jung等人[13]提出了IRIE (Influence Rank Influence Estimation)方法.近年来,Li等人[14]提出了一种用社区挖掘的方法来求解影响力最大化问题的算法.Zhu等人[15]将半定规划应用到求解影响力最大化问题上.他们考虑了现实网络中信息传递对时间的敏感特性,提出了一种新的传播模型,并且针
对不同情况设计了两种使用半定规划求解算法,Cheng等人[16]提出了一种迭代的排序框架来解决独立级联模型下的影响最大化问题.Cohen等人[17]提出了概括影响力公式的问题,Lucier等人[18]提出一种在独立级联模型下估计节点级联影响力的方法.
考虑到图的树核度是一种反映图的结构及其连通性的参数[19],故我们在其基础上提出了一种求解影响最大化问题的方法.本文的贡献主要有:(1)将图的树核度理论应用到影响最大化问题中,并给出了一种求解该问题的多项式时间的算法;(2)在各种不同数据集上进行了实验,结果表明,所提方法有很好的传播范围和覆盖率;
(3)通过比较分析了不同节点的选择方法产生不同效果的原因.
本文第2节介绍树核与树核度的定义与一些相关性质;第3节给出求解树网络树核的方法,在此基础上给出了一种求解社交网络影响最大化节点集的算法;第4节给出实验结果,并分析不同节点选择方法的性能;第5节对本文成果进行了概括并探讨未来的工作.
2 树核与树核度
不难发现,任意一个网络中总是存在一些占有非常重要位置的要素.如果从网络中删去这些要素,那么该网络的结构甚至稳定性将会受到很大的破坏.可见,研究网络中的这些要素是非常有意义的.为此,我们引入了图的树核度理论来研究此问题.图的树核度理论通过判断从图中删去一些顶点及其关联边后所得之图中所含连通分支数与所删顶点数的差值以及各连通分支是否含有圈来衡量这些顶点在图中的重要性.
本文所言之图皆指有限无向简单图(无环无重边),所使用图论中的术语都是标准的[20].对于一个图G,分别用V(G)和E(G) (或简记为V和E)表示G的顶点集和边集.图G中一个顶点v的度dG(v)是指G中与v关联的边的个数.图G的一条从v0到vk的途径是指一个有限非空序列W=v0e1v1e2v2…ekvk,它的项交替地为顶点和
边,使得对于1ik,ei的端点是vi-1和vi.若W的顶点v0,v1,…,vk互不相同,那么
称W为路.若k≥3且v0,v1,…,vk中只有v0和vk相同,其余任意两个顶点都互不相同,那么称W为圈.若G中任意两个顶点之间都存在一条路,那么称G是连通的;否则,称G是不连通的.如果G是不连通的,那么G至少含有两个连通分支,用ω(G)表示G的连通分支的个数.若图G是连通的,且G不包含圈,则称G为树. 令V′⊆V,若G-V′不连通,则称V′为G的顶点割,其中G-V′表示从G中删去V′中
的顶点以及与这些顶点关联的边所得到的子图.我们用C(G)表示G的所有顶点割构成的集合.进一步,把G-V′中含圈的连通分支(不是树)称为G的基于V′的圈分支,否则称为G的基于V′的树分支,分别简称为圈分支和树分支.
定义1[19][树核与树核度] 对于非完全图G,令T(G)表示C(G)中满足G-S的每个分支都是树分支的顶点割S构成的集合,即
T(G)={S|S∈C(G), G-S不含圈分支}
则称
ht(G)=max{ω(G-S)-|S|;S∈T(G)}
为图G的树核度.若满足
则称为图G的树核. 其中|S|表示S中所含元素(顶点)的个数.由于完全图没有顶点割,我们定义n个顶点的完全图Kn的树核度为2-n,并且任意n-1个顶点都构成它的
一个树核. 相反,考虑到n-阶空图的割集是空集,故定义
例如,对于图1所示的图G,容易验证
T(G)={S1={v1,v3},S2={v2,v3},S3={v3,v4},S4={v1,v2,v3},S5={v1,v3,v4},S6={v2, v3,v4}}.另外,对于任意Si,i=1,2,…,6,G-Si都恰好含有两个树分支,从而可以推出
该图的树核度为0,S1,S2,S3 是它的树核.