基于jaccard和lpa的社团划分算法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Communitydivisionalgorithm basedonandLPA
CUIHaitao,LILingjuan
( SchoolofComputerScience,NanjingUniversityofPostsandTelecommunications,Nanjing210023,China)
Abstract:Thesocialnetworksrecordtheassociationsbetweenthevariousentitiesinthenetworks,andthe communitydivisionisthedifferentiationandtheinductionofthenoderelationshipsinthesocialnet works.Toimprovetheaccuracyandtheefficiencyofthecommunitydivision,basedonJaccardsimilarity algorithmandlabelpropagationalgorithm(LPA),acommunitydivisionalgorithm JLCDsuitablefornon overlappingcommunitiesisdesigned.Firstly,thealgorithm introducestheideaofSimRankalgorithm to improvetheJaccardsimilarityalgorithm inthecasethattherearemanyrelatednodesinthecalculation resultofJaccardsimilarityalgorithm buttheirsimilaritiesarezeroorcannotbecalculated,thustheim provedJaccardalgorithm isusedtocalculatenodesimilaritytogettheinitialcommunities.Then,theLPA isusedtocompletethefinalcommunitydivisionbasedontheinitialcommunities,soastosolvetheprob lemsthattheresourceconsumptionislargeintheinitiallabelallocationandimprovethestabilityofthe communitydivision.Thecommunitydivisionresultsofdolphinsocialnetwork,footballteammatchnetwork andartificiallygenerateddatasetsshow thattheJLCD algorithm caneffectivelydividethecommunity structureandhashigheraccuracyandlowertimecomplexity. Keywords:communitydivision;Jaccardsimilarity;labelpropagationalgorithm (LPA)
研究发现要利用simrank算法计算目标节点ij相似度要先求得ij的所有邻居节点然后再依次计算其相似度这样当面对节点之间间隔节点过多的情况时计算过于复杂而且当处理度数较大的节点时式1的分母中乘积过大可能会导致相似度计算结果过小从而产生浮点数下溢的问题不利于对jaccard相似度算法进行改进因此将式1改为只考虑利用目标节点ij最短路径上的节点之间的相似度来求得ij的相似度并将分母中的计算节点度数乘积改为计算节点度数之和sijckikjtrdijtrstr5其中ki表示节点i的度c表示衰减系数c08dij表示目标节点ij之间最短路径上的节点的集合包括ijstr为节点tr之间的相似度
收稿日期:20190604;修回日期:20190723 本刊网址:http:∥nyzr.njupt.edu.cn 基金项目:国家重点研发计划专项(2017YFB1401302,2017YFB0202200)和国家自然科学基金(61572260、61872196)资助项目 作者简介:崔海涛,男,硕士研究生;李玲娟(通讯作者),女,博士,教授,lilj@njupt.edu.cn 引用本文:崔海涛,李玲娟.基于 Jaccard和 LPA的社团划分算法[J].南京邮电大学学报(自然科学版),2019,39(6):79-85.
基于 Jaccard和 LPA的社团划分算法
崔海涛,李玲娟
( 南京邮电大学 计算机学院,江苏 南京 210023)
摘要:社会网络记录网络中各个实体间的关联,社团划分是对社会网络中的节点关系的区分归纳。 为了提高社团划分的准确率和效率,基于 Jaccard相似度算法和标签传播算法 LPA,设计了一种适 用于非重叠社团的划分算法 JLCD。该算法首先针对 Jaccard相似度算法的计算结果中存在较多关 联性的节点但相似度为零或无法计算的情况,引入了 SimRank算法的思想对 Jaccard相似度算法进 行了改进,并用改进的 Jaccard算法来计算节点相似度从而得到初始社团;然后用 LPA算法基于初 始社团来完成最终的社团划分,以此解决 LPA在初始标签分配上消耗资源大的问题,并提高社团 划分的稳定性。海豚社会网络、足球队赛事网络和人工生成数据集的社团划分结果表明:JLCD方 法能够有效地对社团结构进行划分,并且具有较高的准确度和较低的时间复杂度。 关键词:社团划分;Jaccard相似度;LPA 中图分类号:TP311 文献标志码:A 文章编号:16735439(2019)06007907
第 39卷第 6期 2019年 12月
南 京 邮 电 大 学 学 报 (自 然 科 学 版 )
JournalofNanjingUniversityofPostsandTelecommunications(NaturalScienceEdition)
Vol.39 No.6 Dec2019
doi:10.14132/j.cnki.16735439.2019.06.012
80
南京邮电大学学报(自然科学版) 2019年
社会网络是相互联系的社会实体之间构成的关 系结构[1],社 团 是 社 会 网 络 的 重 要 属 性 之 一[2-4]。 近年来,学者们已经提出了许多社团划分的算法,例 如基于边介数的 GN算法[5],基于模块度优化的 FN 算法[6]、标签传播算法 LPA等。其中的标签传播算 法面向非重叠社团网络,其社团划分的时间复杂度 为线性,但是该算法在初始社团节点标签分配上消 耗资源大,在设置标签和标签传播过程中的随机性 偏高,结果不够准确。
CUIHaitao,LILingjuan
( SchoolofComputerScience,NanjingUniversityofPostsandTelecommunications,Nanjing210023,China)
Abstract:Thesocialnetworksrecordtheassociationsbetweenthevariousentitiesinthenetworks,andthe communitydivisionisthedifferentiationandtheinductionofthenoderelationshipsinthesocialnet works.Toimprovetheaccuracyandtheefficiencyofthecommunitydivision,basedonJaccardsimilarity algorithmandlabelpropagationalgorithm(LPA),acommunitydivisionalgorithm JLCDsuitablefornon overlappingcommunitiesisdesigned.Firstly,thealgorithm introducestheideaofSimRankalgorithm to improvetheJaccardsimilarityalgorithm inthecasethattherearemanyrelatednodesinthecalculation resultofJaccardsimilarityalgorithm buttheirsimilaritiesarezeroorcannotbecalculated,thustheim provedJaccardalgorithm isusedtocalculatenodesimilaritytogettheinitialcommunities.Then,theLPA isusedtocompletethefinalcommunitydivisionbasedontheinitialcommunities,soastosolvetheprob lemsthattheresourceconsumptionislargeintheinitiallabelallocationandimprovethestabilityofthe communitydivision.Thecommunitydivisionresultsofdolphinsocialnetwork,footballteammatchnetwork andartificiallygenerateddatasetsshow thattheJLCD algorithm caneffectivelydividethecommunity structureandhashigheraccuracyandlowertimecomplexity. Keywords:communitydivision;Jaccardsimilarity;labelpropagationalgorithm (LPA)
研究发现要利用simrank算法计算目标节点ij相似度要先求得ij的所有邻居节点然后再依次计算其相似度这样当面对节点之间间隔节点过多的情况时计算过于复杂而且当处理度数较大的节点时式1的分母中乘积过大可能会导致相似度计算结果过小从而产生浮点数下溢的问题不利于对jaccard相似度算法进行改进因此将式1改为只考虑利用目标节点ij最短路径上的节点之间的相似度来求得ij的相似度并将分母中的计算节点度数乘积改为计算节点度数之和sijckikjtrdijtrstr5其中ki表示节点i的度c表示衰减系数c08dij表示目标节点ij之间最短路径上的节点的集合包括ijstr为节点tr之间的相似度
收稿日期:20190604;修回日期:20190723 本刊网址:http:∥nyzr.njupt.edu.cn 基金项目:国家重点研发计划专项(2017YFB1401302,2017YFB0202200)和国家自然科学基金(61572260、61872196)资助项目 作者简介:崔海涛,男,硕士研究生;李玲娟(通讯作者),女,博士,教授,lilj@njupt.edu.cn 引用本文:崔海涛,李玲娟.基于 Jaccard和 LPA的社团划分算法[J].南京邮电大学学报(自然科学版),2019,39(6):79-85.
基于 Jaccard和 LPA的社团划分算法
崔海涛,李玲娟
( 南京邮电大学 计算机学院,江苏 南京 210023)
摘要:社会网络记录网络中各个实体间的关联,社团划分是对社会网络中的节点关系的区分归纳。 为了提高社团划分的准确率和效率,基于 Jaccard相似度算法和标签传播算法 LPA,设计了一种适 用于非重叠社团的划分算法 JLCD。该算法首先针对 Jaccard相似度算法的计算结果中存在较多关 联性的节点但相似度为零或无法计算的情况,引入了 SimRank算法的思想对 Jaccard相似度算法进 行了改进,并用改进的 Jaccard算法来计算节点相似度从而得到初始社团;然后用 LPA算法基于初 始社团来完成最终的社团划分,以此解决 LPA在初始标签分配上消耗资源大的问题,并提高社团 划分的稳定性。海豚社会网络、足球队赛事网络和人工生成数据集的社团划分结果表明:JLCD方 法能够有效地对社团结构进行划分,并且具有较高的准确度和较低的时间复杂度。 关键词:社团划分;Jaccard相似度;LPA 中图分类号:TP311 文献标志码:A 文章编号:16735439(2019)06007907
第 39卷第 6期 2019年 12月
南 京 邮 电 大 学 学 报 (自 然 科 学 版 )
JournalofNanjingUniversityofPostsandTelecommunications(NaturalScienceEdition)
Vol.39 No.6 Dec2019
doi:10.14132/j.cnki.16735439.2019.06.012
80
南京邮电大学学报(自然科学版) 2019年
社会网络是相互联系的社会实体之间构成的关 系结构[1],社 团 是 社 会 网 络 的 重 要 属 性 之 一[2-4]。 近年来,学者们已经提出了许多社团划分的算法,例 如基于边介数的 GN算法[5],基于模块度优化的 FN 算法[6]、标签传播算法 LPA等。其中的标签传播算 法面向非重叠社团网络,其社团划分的时间复杂度 为线性,但是该算法在初始社团节点标签分配上消 耗资源大,在设置标签和标签传播过程中的随机性 偏高,结果不够准确。