使用监督学习技术在学术社交网络中进行链路预测

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期：2018-09-18 *基金项目：国家自然科学基金（61170026）；国家重点研发计划（2017YFB0503700，2016YFB0501801）；国家标准研究计划（2016BZYJ-WG7-001）；华中师范大学中央高校基本科研业务费青年教师创新项目（CCNU18QN019）作者简介：赵素芬（1981-），女，湖北枣阳人，博士研究生，讲师，主要研究方向：社交网络挖掘，人工智能。
· 40 ·
Computer Era No. 1 2019
抽取的显式特征或者隐式特征自动学习出分类模型，比较好地克服无监督指标的一些缺陷。但是，目前针对学术社交网络的链路预测中，其使用的特征均十分有限，这制约了链路预测的效果。
因此，为了克服现有的监督学习模型中的问题，本文中，我们基于学术社交网络，抽取了三大类别的特征，包括网络拓扑结构相关特征（节点之间的最短图距离、共同邻居的个数、Jaccard 系数、偏好依附值、 AA 指标、重启随机游走分数等[1-2]）、以及学者的研究兴趣相似度特征（标题文本相似度）、以及学者的学术地位因素（作者发表论文数之和）等八个特征。
0 引言
链路预测是图挖掘的核心，因其能够揭示社交网络演化的本质，故具有十分重要的研究意义。本文基于学术合作关系网络进行链路预测。学术合作网络即学者基于互相合作发表学术论文而构建的合作关系网。这种合作关系可以很方便地从在线的文献发表数据集中抽取，例如 dblp, ACM, Google Scholar 等等。我们的研究问题是，基于现有的合作关系网络，预测将来很可能出现的合作关系。对该问题的深入研究，能够为揭示学者之间的研究合作模式、了解合作关系建立的本质，以及为学者推荐最有潜在合作价值的合作关系提供良好的基础。
典机器学习算法进行链路预测。针对现有监督学习算法中特征集使用不够全面的问题，抽取了三大类别的特征。针对
数据高度偏斜问题，采用了欠采样的方式使模型不对主要类别过度偏斜，以此保证分类器的有效性。实验结果表明，
Adaboost 和多层前馈神经网络模型在精确率、召回率以及 F1-measure 指标上优于其他监督学习方法，而朴素贝叶斯方法
计算机时代 2019 年第 1 期
· 39 ·
DOI:10.16644/j.cnki.cn33-1094/tp.2019.01.011
使用监督学习技术在学术社交网络中进行链路预测*
赵素芬 1,2
(1. 华中师范大学计算机学院，湖北武汉 430079；2. 武汉大学计算机学院)
摘要：链路预测是社交网络研究中最核心、最本质的研究问题。文章基于学术合作关系社交网络，采用多种现有的经
在本问题上表现最差。
关键词：社交网络；链路预测；机器学习；监督学习；数据偏斜
中图分类号：TP311
文献标志码：A
文章编号：1006-8228(2019)01-39-04
Predicting the links in academic social networks with supervised learning technique
针对链路预测问题，现有的研究方法主要分为两个大的类别。①无监督的方式。这 [1,2,12] 种方式，主要针对社交网络的拓扑结构抽取特征，这些无监督的指标能够体现出网络中的两个节点建立关系的潜在可能性。绝大多数无监督指标的计算方式比较简单，其计算复杂度都很低。但是，无监督指标适合排序，如果进行链路预测就需要指定一个分类的阈值。这种情况下，链路预测的指标阈值如何设定，这是一个很难把握的部分。并且，这种情形下很难综合考虑多个不同的预测指标。②监督学习的方式。 [3,4,6,8,11] 随着机器学习技术的快速发展，一些研究者选择使用监督学习技术进行链路的预测。 [3-4] 监督学习方式能够根据
Zhao Sufen1,2
（1. School of Computer, Central China Normal University, Wuhan, Hubei 430079, China; 2. School of Computer Science, Wuhan University）
Abstract：Link prediction is the core and essential research issue in social networks research. Based on the academic co-authorship networks, eight existing classical machine learning algorithms are used for link prediction. Three categories of features are extracted for link prediction to solve the problem that the features don't be used comprehensively in the existing supervised learning algorithms. And the under-sampling is used for the problem of high skewness of data, to overcome the model skewness and to ensure the validity of the classifiers. Experimental results show that Adaboost and Multi-Layer Perceptron model are superior to the other six models in Precision, Recall and F1-measure. However, Naive Bayesian performs the worst. Key words：social networks；link prediction；machine learning；superቤተ መጻሕፍቲ ባይዱised learning；data skewness