基于SimRank的作者相似度计算_刘萍
S-SimRank:结合内容和链接信息的文档相似度计算方法
S-SimRank:结合内容和链接信息的文档相似度计算方法蔡元哲;李佩;刘红岩;何军;杜小勇【期刊名称】《计算机科学与探索》【年(卷),期】2009(003)004【摘要】文档的内容分析和连接分析是计算文档相似度的两种方法.连接分析能够发现文档之间的隐含关系,但是,由于文档之间的噪声的存在,这种方法很难得到精确的结果.为了解决这个问题,提出了一个新的算法一S-SimRank(Star-SimRank),有效地将文档的内容信息和连接信息结合在一起从而提高了文档相似度计算的准确性.S-Simrank算法在ACM数据集上无论是准确性和效率都比其他算法有了很大地提高.最后,给出了S-SimRank的收敛性的数学证明.%Content analysis and link analysis among documents are two common methods in recommending system. Compared with content analysis, link analysis can discover more implicit relationship between documents. At the same time, because of the noise, these methods can't gain precise result. To solve this problem, a new algorithm, S-SimRank (Star-SimRank), is proposed to effectively combine content analysis and link analysis to improve the accuracy of similarity calculation. The experimental results for the ACM data set show that S-SimRank outperforms other algorithms. In the end, the mathematic prove for the convergence of S-SimRank is given.【总页数】14页(P378-391)【作者】蔡元哲;李佩;刘红岩;何军;杜小勇【作者单位】中国人民大学教育部数据工程和知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872;中国人民大学教育部数据工程和知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872;清华大学管理科学与工程系,北京,100084;中国人民大学教育部数据工程和知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872;中国人民大学教育部数据工程和知识工程重点实验室,北京,100872;中国人民大学信息学院,北京,100872【正文语种】中文【中图分类】TP182【相关文献】1.面向云存储的基于全同态密码技术的文档相似度计算方法 [J], 江小平;张巍;李成华;周航;孙婧2.基于改进的Jaccard系数文档相似度计算方法 [J], 俞婷婷;徐彭娜;江育娥;林劼3.基于语义信息内容的FCA概念相似度计算方法 [J], 黄宏涛;程清杰;万庆生;黄少滨4.一种基于图模型的维基概念相似度计算方法及其在实体链接系统中的应用 [J], 张涛;刘康;赵军5.综合结构和内容的XML文档相似度计算方法 [J], 赵宁宁;梁意文因版权原因,仅展示原文概要,查看原文内容请购买。
基于SimRank的中药“效-效”相似关系挖掘
摘
要 :中药 “ 效 ”关联分析 是中医药研究 中最基本也是最重要 的问题 ,对药效 判断具有重要意义 。该文 旨在利用数据挖掘技术 , 中 效一 从
药 方剂数据 中自动挖掘 “ 效 ”相似 关系, 自 归纳不 同药效之 间的相似度 ,提 出了基于 Sm a k 效一 动 i R n 方法的 “ 效”相似关系挖掘算法。 效一 中医专家对算法输 出结果的大量验证表 明,该 算法具有较高 的正确率 ,其 中 “ 良”和 “ 优 合理”共 占 7 . 8 0 6 %。 5
TCM e e r h, i h i fg e t i n fc n ef rTCM r s rp i n e f c e e c Th a e n e st s aa mi i g tc n l g u o t al r s a c wh c o r a g i a c o s s i p e c t fe t s a h. e p p r tnd o u e d t n n e h o o y t a t ma i ly i o r r i O c mi e t e sm lrt ea i n n TCM r s rp i n d t n nd e d g e f t e smi rt t e i e e t d u f e t.Fo h s r a o n n h i a iy r l t s i i o p e c t a a a d i uc e r e o i l iy bewe n d f r n r g e f c s i o h a f r t i e s n,a ag rt m fm n n e f c - fe t i l rt e a i n n TCM a e n S mRa k m e o sp o o e n t e p p r Th e u t o s l d b lo i h o i g fe t f c ’smia y r lto si i e i b sdo i n t d i r p s d i h a e . e r s lsc n u t y TCM h e e p rss o t a e c re t ae o t e a g rt m o a a i e y h g . x e h w t o r c t f l o h i c mp t l i h Am o g t e go d’a d ’e s n bl ’ha e7 5 8 t t l . t h t h r h i s r v n h m, o n r ao a e v 0. 6 % o al y
相似度计算公式
相似度计算公式
相似度计算是一项基于计算的比较两个或多个实体之间差异的任务,它可以帮助人们更好地理解他们之间的关系。
一般来说,相似度
计算使用类似于标准化欧氏距离(Euclidean Distance)的特征比较
函数,即d(X,Y)= √(∑(Xi - Yi)2),其中X和Y分别表示两
个向量的特征向量,i表示特征的编号。
此外,也可以使用更复杂的基
于信息论的知识度量,如Jaccard系数、Sørensen–Dice系数和共现
矩阵。
通过计算向量的不同,人们可以创建出各种不同的特征差异指标,并把它们用于衡量文本、形象、音乐、视觉和其他内容之间的相
似性。
例如,人们可以计算文字内容之间的相似性,并计算其相似度指
标(例如,基于信息论的语义相似度),从而进行情感分析和句子相
似性的比较等。
此外,人们也可以通过图像处理的方法,计算形状、
色彩和细节等图像内容之间的相似度。
在音乐方面,相似度计算也可以用来计算不同演奏中音序(旋律)或音调(节奏)等内容之间的相似性。
这种计算可以帮助人们发现潜
在的关联,并对他们之间的联系进行定量分析。
总之,相似度计算是一种基于计算的技术,它可以帮助人们更好
地比较并理解不同实体之间的差异。
它可以使用标准的欧氏距离特征
比较函数,也可以使用更复杂的基于信息论的知识度量函数,例如Jaccard系数和Sørensen–Dice系数等,用于衡量不同文本、图像、
音乐或其他内容之间的相似性。
SimRank
Eg. 2 Many Common Neighbors, sim(pi, pj)=0 if i≠j
wrong!
MatchSim
• Intuition: similar pages have similar neighbors • Definition:
W(a,b) sim(a,b) = max(|I(a)|∙|I(b)|)
P-Rank
P-Rank
P-Rank
P-Rank
P-Rank
Drawbacks of Simrank
the more in-neighbors of nodes a and b, the smaller the similarity between a and b
a1 : SVM 0.7 b1 : SVM
象间相似程度的模型。
SimRank模型的核心思想为: 如果两个对象被相似的对象所 引用(即若两个对象有相似的 入邻边结构),那么这两个对
象也是相似的。
SimRank算法
SimRank算法原理
在G中,如果存在a指向c, b指向d,则在G2中存在一个 节点(a, b)指向节点(c, d)。
SimRank算法
Simrank*
VLDB'14 More is Simpler: Effectively and Efficiently Assessing Node-Pair Similarities Based on Hyperlinks
Simrank*
SimRank does neglect all contributions of in-link paths without a “source” node in the center, and the “zero-similarity” issue refers not only to the problem that SimRank may produce “completely zero scores” (i.e., “completely dissimilar” issue), but also to the problem that SimRank may miss the contributions of a large class of in-link paths (even though their scores are not zero) due to the “zero contributions” of such paths to SimRank scores (i.e., “partially missing” issue).
SimRank:基于图结构的相似度计算方法
SimRank:基于图结构的相似度计算⽅法简单理解SimRank图1.⼆部图所谓⼆部图(bipartite graphs),是指图中的节点可以分这两个⼦集,任意⼀条边关联的两个节点分别来⾃于这两个⼦集。
⽤I(v)和O(v)分别表⽰节点v的in-neighbors和out-neighbors。
看上⾯的⼆部图,我们把A、B当成两个⼈,把a、b、c当成三件商品,有向边代表⼈购买的商品。
simrank的基本思想是:如果两个实体相似,那么跟它们相关的实体应该也相似。
⽐如在上图中如果a和c相似,那么A和B应该也相似,因为A和a相关,⽽B和c相关。
SimRank的基本公式:\begin{equation}s(a,b)=\frac{C}{|I(a)||I(b)|}\sum_{i=1}^{|I(a)|}\sum_{j=1}^{|I(b)|}s(I_i(a),I_j(b))\label{basic}\end{equation}s(a,b)是节点a和b的相似度,当a=b时,s(a,b)=1。
I_i(a)表⽰a的第i个in-neighbor。
当I(a)=\emptyset或I(b)=\emptyset时式\eqref{basic}为0。
\eqref{basic}式⽤⼀句话描述就是:a和b的相似度等于a的in-neighbors和b的in-neighbors相似度的平均值。
参数C是个阻尼系数,它的含义可以这么理解:假如I(a)=I(b)={A},按照\eqref{basic}式计算出sim(a,b)=C*sim(A,A)=C,所以C\in(0,1)。
把式\eqref{basic}应⽤于图1所⽰的⼆部图就是:\begin{equation}s(A,B)=\frac{C_1}{|O(A)||O(B)|}\sum_{i=1}^{|O(A)|}\sum_{j=1}^{|O(B)|}s(O_i(A),O_j(B))\ \ \ \ for\ A\ne{B}\label{out}\end{equation}\begin{equation}s(a,b)=\frac{C_2}{|I(a)||I(b)|}\sum_{i=1}^{|I(a)|}\sum_{j=1}^{|I(b)|}s(I_i(a),I_j(b))\ \ \ \ for\ a\ne{b}\label{in}\end{equation}忽略C_1和C_2,\eqref{out}式是说买家A和B的相似度等于他们购买的物品之间相似度的平均值,\eqref{in}式是说物品a和b的相似度是购买它们的买家之间相似度的平均值。
词向量 相似度计算公式
词向量相似度计算公式
词向量相似度计算公式可以使用余弦相似度来衡量。
余弦相似度是通过计算两个向量之间的夹角的余弦值来表示它们的相似程度。
具体计算公式如下:
similarity = (A·B) / (||A|| ||B||)
其中,A和B分别是两个词的词向量,·表示向量的点积运算,||A||表示向量A的模或长度。
除了余弦相似度,还有其他一些常用的词向量相似度计算方法,例如欧氏距离、曼哈顿距离等。
这些距离计算方法可以转化为相似度计算公式,但需要根据具体问题和数据进行选择。
拓展:除了上述常见的词向量相似度计算方法,还有一些基于语义相关性的方法。
例如,Word2Vec模型中使用的cosine distance,可以通过减去词向量之间的余弦相似度来计算相似度得分。
此外,还有一些基于深度学习的模型,如BERT、ELMo等,可以通过计算两个词向量之间的相似度得分来衡量它们的语义相关性。
这些模型通常会考虑上下文信息,以更准确地捕捉词语之间的语义关系。
高校新生社团推荐系统的开发及设计[权威资料]
高校新生社团推荐系统的开发及设计摘要:高校学生的综合素质是影响高校毕业生就业的一个关键因素,高校社团是素质教育的一个重要途径,可以提高高校学生职业规划意识和职业素养。
如何让新入学的高校新生选择合适的社团,是本文需要研究解决的问题。
从用户的角度出发,推荐系统可有效地帮助用户做出决策。
本文把学生的相似度计算、K-中心点算法聚类分析以及招收指数结合在一起,最终得到社团的推荐排序值,并将其推荐给新生用户。
本系统能够实现为新生推荐社团服务,具有一定的应用价值。
关键词:推荐系统;相似度;聚类分析;PageRankTP311.52 A1 引言高校毕业生就业难这个问题由来已久,其中一个主要原因是高校毕业生综合能力较差,而高校社团是综合素质培养的一个重要途径。
近年来,高校社团的数量和种类呈现快速增长的趋势,如何让高校新生选择到合适的社团,信息化的高校社团推荐系统给出了这个问题的解决方案。
2 系统的构建2.1 系统的软硬件设计推荐系统是基于.NET的三层架构体系,选用B/S模式进行架构,使用高性能PC作为服务器,采用Microsoft SQL Sever 2008企业版作为数据库服务器,采用ADO做为数据访问的基础。
Cluster[1-2]为网络服务提供了灵活高效的软件环境和硬件设施,为SQL Server提供了良好的性能扩展。
2.2 系统的整体架构高校社团推荐系统就是根据特定的算法,以学生和社团的各项特征为基础,建立学生和社团的二元关系,以二者之间的相似关系作为依据,为新生推荐合适的社团。
下面是社团推荐系统实现的主要流程主:1.构造学生数据库(包括新生数据库、老生数据库)和社团数据库;2.依据新生数据库和老生数据库中的数据获得新生和老生之间的相似度关系;3.获得社团数据库中各社团之间的关系;4.将2和3的结果相互结合,得到最终的排序权值;5.对新生数据库中的每个学生,社团数据库中的社团按4得到的权值将排序后显示给新生用户。
大图上的SuperSimRank近似计算方法
收稿日期:20180122;修回日期:20190115;责任编辑:孙瑶 基金项目:国家自然科学基金(No61762036,No61663009,No61563016);江 西 省 自 然 科 学 基 金 (No20171BAB202012,No20181BAB202023); 江西省交通厅科研项目(No2017D0038);江西省教育厅科技项目(NoGJJ180322)
摘 要: 网络数据具有规模大的特点,而基于关系的相似度计算复杂度高,因此大图上的相似度计算具有很大
挑战.文章针对一个新的相似度度量 SuperSimRank在大图上的优化计算问题展开研究.首先提出了阈值过滤技术,使
得在计算过程中忽略那些对 SuperSimRank值影响较小但消耗计算资源的路径值,并通过严格数学证明论证了近似值
1592
电 子 学 报
2019年
≤i≤ |O(v)|).
节点 a和 b的 SSR公式(详情见文献[6])为:
电子学报 URL:http://www.ቤተ መጻሕፍቲ ባይዱjournal.org.cn
DOI:10.3969/j.issn.03722112.2019.07.026
AccuracyEstimateandOptimizationTechniquesfor SuperSimRankComputationonMassiveGraphs
和准确值的误差;然后在此基础上提出了高效的外存算法,该算法避免了随机访问文件而是通过顺序的读写文件,极
大的减少了 I/O代价;最后实验验证了算法的有效性.
关键词: SuperSimRank;节点相似度;大图
中图分类号: TP311 文献标识码: A 文章编号: 03722112(2019)07159105
基于s-LTP和相似度匹配的人脸识别算法
2020年25期创新前沿科技创新与应用Technology Innovation and Application基于s-LTP 和相似度匹配的人脸识别算法*黄涛,邓燕妮*(武汉理工大学自动化学院,湖北武汉430070)人脸识别技术是鉴别个人身份信息的重要手段,各种各样的人脸识别算法层出不穷,各有优劣。
其中,局部二值模式(LBP )因为其优秀的图像纹理分析与描述能力而被广泛应用于各种人脸识别算法中。
传统的LBP 算子计算过程简单、效果较好,但容易受人脸图像背景环境以及光照等不可控因素的影响而产生较大的误差,从而增加错误识别的概率。
为了减小背景环境和外界光照等因素对人脸图像识别率的影响,提取更丰富的局部特征,有学者在LBP 算子的基础上提出了局部三值模式(LTP )。
李伟生等[1]提出了一种基于LTP 自适应阈值的人脸识别方法,通过自定义的阈值编码对LBP 算子扩展,采用-1,0,1三值,分别统计正、负模式层特征的直方图,并根据概率分布计算各层信息熵权重,最后使用最近邻分类器识别人脸图像样本。
唐红梅等[2]提出了一种中心对称三值模式(CSTP )算法,首先对人脸表情图像进行分块处理,结合每一子块的CSTP 特征的直方图统计和对应的信息熵,构造自适应加权系数,最后利用支持向量机(SVM )进行表情分类。
上述两种针对LBP 算子的改进方法从图像的局部纹理特征入手,使处理结果受像素灰度差异变化的影响变小,抗干扰能力变强。
但是忽略了图像局部与整体之间的关系,且大量的数据和复杂的计算方法为后续的数据处理和识别分类增加了难度。
本文中提出了一种基于s-LTP 算子和相似度匹配的人脸识别算法。
该算法针对以上两种方法的不足之处,利用2,1,0三值和正负号,通过自定义的编码形式将预处理好的人脸图像转换成一个特征值矩阵。
同时还以皮尔逊相关系数为基础依据,提出了矩阵相似度的概念。
通过计算模板图像和待测样本图像的特征值矩阵的相似度,并以实验得出的最佳皮尔逊相关系数阈值和相似度阈值为依据完成人脸图像的分类识别。
基于链接关系的Web页面相似度搜索
基于链接关系的Web页面相似度搜索靳黛露;张月琴;张明西【期刊名称】《计算机应用与软件》【年(卷),期】2014(000)001【摘要】Web页面相似度搜索对于网络新闻推荐、近似查询等研究领域具有重要作用。
SimRank是经典的相似度计算模型,但其预计算时间和空间开销非常巨大,不适用大规模Web页面网络。
利用SimRank快速收敛的特点,在SimRank基础上提出高效Web页面相似度搜索方法(WSR),预计算1步迭代相似度矩阵,根据预计算的1步迭代相似度矩阵在线计算给定查询页面和其他页面的2步迭代相似度。
通过对Web网络进行静态剪枝,进一步提高预计算和在线查询处理的效率。
实验结果显示,WSR显著降低了存储开销和预计算时间开销,且具有较高精确度和快速查询响应时间。
%Web pages similarity search plays importantrole in many research fields such as Web news recommendation and approximate query,etc.SimRank is a classical similarity computation model,however,it is not adaptable to large Webpage networks because its space and time cost is very high.Utilising the characteristic of SimRank in fast convergence,we propose an efficient Web pages similarity search (WSR)method.It pre-computes 1-hop iterative similarity matrix,and then conducts online computation of 2-hop iterative similarities of the given querying pages and other pages according to the computed 1-hop iterative similarity matrix.The pre-computation and online query processing efficiencies are further improved by static pruning on Webnetwork.Experimental result shows that the WSR evidently reduces the storage cost and pre-computation time cost,and has higher accuracy and fast query responding time.【总页数】5页(P57-61)【作者】靳黛露;张月琴;张明西【作者单位】太原理工大学计算机科学与技术学院山西太原030024;太原理工大学计算机科学与技术学院山西太原030024;复旦大学计算机科学技术学院上海201203【正文语种】中文【中图分类】TP311【相关文献】1.基于结构语义的Web页面中超链接的分类 [J], 王霞俊;江士方2.基于Web页面链接和标签的聚类方法 [J], 李元俊;陈俊杰;赵涓涓3.基于超链接引导和链接图分析的主题搜索引擎 [J], 唐苏;刘循4.基于网页内容相似度和链接关系的社区发现及动态添加 [J], 云颖;袁方;刘宇;王传豹5.元搜索基于源搜索引擎的链接优化 [J], 程仁贵;黎明因版权原因,仅展示原文概要,查看原文内容请购买。
基于相似性度量方法的图像检索
基于相似性度量方法的图像检索
宋艳;刘方爱
【期刊名称】《计算机应用与软件》
【年(卷),期】2007(24)10
【摘要】图像检索的目的是找出检索对象集中的所有与指定样本图像相似的图像.基于内容的图像检索近年来得到了广泛的研究,人们已经提出了许多基于特征的图像检索算法,在以往的算法中表达图像特征的相似度通常采用距离法,但是这种距离法存在很多不足之处.为了克服这些不足,介绍了一种特征矩阵的构造方法并利用特征矩阵来计算图像的相似度,以此来进行图像检索.
【总页数】3页(P166-168)
【作者】宋艳;刘方爱
【作者单位】山东师范大学信息科学与工程学院,山东,济南,250014;山东师范大学信息科学与工程学院,山东,济南,250014
【正文语种】中文
【中图分类】TP3
【相关文献】
1.图像检索中一种新的相似性度量方法 [J], 刘玲
2.纹理图像检索的不同相似性度量方法的比较研究 [J], 高燕;张瑜慧;胡学龙
3.图像检索中的相似性度量方法 [J], 时慧琨
4.遥感图像检索中的相似性度量方法比较 [J], 包倩;郭平
5.图像检索中的动态相似性度量方法 [J], 段立娟;高文;林守勋;马继涌
因版权原因,仅展示原文概要,查看原文内容请购买。
一种基于成分的句子相似度计算
一种基于成分的句子相似度计算
郑诚;夏青松;孙昌年
【期刊名称】《计算机技术与发展》
【年(卷),期】2012(22)12
【摘要】当前信息数据量庞大、冗余度高,如何在自动问答系统中快速查询所需要的信息成为一个关键课题。
句子相似度计算作为该领域的一个基础并且是核心的部分,一直受到人们的关注。
当前的方法各有其不足之处,文中提出了一种基于成分的句子相似度计算方法。
通过将句子划分为主语、谓语、宾语、定语等成分,根据知网计算各个成分间的相似度,最后将所有成分的相似度加权求和得到句子相似度。
这种方法不仅能够明显提高句子相似度计算的准确率,同时也极大地降低了计算时的时空消耗,可以有效地提高自动问答系统的准确性。
【总页数】4页(P101-104)
【作者】郑诚;夏青松;孙昌年
【作者单位】安徽大学计算机科学与技术学院,安徽合肥 230039;安徽大学计算机科学与技术学院,安徽合肥 230039;安徽大学计算机科学与技术学院,安徽合肥230039
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种基于词向量与框架语义分析的句子相似度计算方法 [J], 刘馨婷;蔡晓东
2.一种基于词语多原型向量表示的句子相似度计算方法 [J], 郭鸿奇;李国佳
3.一种基于字向量和LSTM的句子相似度计算方法 [J], 何颖刚;王宇
4.一种基于词语多原型向量表示的句子相似度计算方法 [J], 郭鸿奇;李国佳;;
5.一种基于Tree-LSTM的句子相似度计算方法 [J], 杨萌;李培峰;朱巧明
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DOI: 10. 16353 / j. cnki. 10007490. 2015. 06. 022
●刘
萍,黄纯万 ( 武汉大学
信息管理学院,湖北
武汉 430072 )
* 基于 SimRank 的作者相似度计算
图1
共引、耦合和 SimRank 相似度 “扩散” 模型比较
体指向。 接下来通过二分图 G,分析共引思想、 耦合思想和 SimRank 的联系,见图 1 。 传统的共引思想和耦合思想仅 仅基于节点对的共同邻居节点计算节点的相似度,由图 1 ( a) 可以分别推导出基于共引思想的相似度 “扩散 ” 模 型图 1 ( b) 和基于耦合思想的相似度 “扩散 ” 模型图 1 ( c) 。SimRank 相似度的 “扩散” 是一个递归渗透的过程, 从相似度为 1 ( 节点与自身相似度为 1 ) 的节点对开始, 相似度沿箭头方向在整个网络中扩散,当相似度流入循环 时 ( 如图 1 ( d) 所示) ,节点对之间的相似度相互强化, 直到各个节点对相似度值达到稳定状态 。 SimRank 通过对 整个网络结构信息的分析,增强了相似度的计算效果 。 在 作者关键词共现网络中大部分的关键词节点 ( 集散节点) 只与少量的作者节点相连,是典型的无标度网络。 基于 SimRank 思想的相似度计算方法能够较好挖掘网络中大量 存在的集散节点间的相似性,如计算图 1 ( a ) 中集散节 点 v3 和集散节点 v5 之间的相似度。
[11 ]
( Cocitation) 思想的作者同被引分析,基于耦合 ( Bibliographic Coupling) 思想的作者耦合分析、 作者关键词耦合
本文为国家自然科学基金项目 “面向知识创新的科研组织知识
。 无法识别研究主
题相似使用不同关键词的作者关系 。
*
— —从 社 会 资 本 角 度 ” 的 研 究 成 果 之 一, 项 目 编 社区 挖 掘— 号: 71203164 。
摘 要: 现有的相似度计算方法大都依赖于作者间的直接关联 , 忽略了间接关联。 文章提出一种新的基于 SimRank
的作者相似度计算方法 ,充分考虑作者关键词二分图网络的整体结构特性 ,利用图结构相似度算法挖掘出作者间以及词 汇间的潜在关联关系。初步实验表明该方法能够有效地识别作者之间的相似度 ,相比于传统的关键词耦合 , 该方法可以 明显提高作者相似度计算的准确性 。 关键词: 算法; 链接关系; 作者相似度; SimRank Abstract: Existing similarity calculation methods mostly depend on the direct correlation between authors as well as ignore the indirect correlation. This paper proposes a new calculation method of author similarity based on SimRank. The method gives much attention to the overall structure characteristics of the author keyword bipartite graph network,and uses graph structure similarity algorithm to mine the potential relationship between authors and vocabularies. The preliminary experiment demonstrates that the method can effectively identify the similarity between authors,and this method can obviously improve the accuracy of author similarity calculation with the comparison of the traditional keywords coupling. Keywords: algorithm; linking relationships; author similarity; SimRank 作者相似度计算在学科知识结构探测 分
·第 38 卷 2015 年第 6 期·
— 109 —
实践研究 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟
SimRank 能应用于网页排名、 协同过滤、 孤立点检测、 网 络图聚类、近似查询处理等。 靳黛露
[17 ]和关键词相似度矩阵。来自将 SimRank 应用
[89 ]
从作者共被引的角
。 作者关键词耦
合分析 ( Author Keywords Coupling Analysis, AKCA ) 是通 过关键词间的耦合强度来推理作者间关系 。 AKCA 与作者 合著网络具有相关性,二者都能通过网络结构分析作者间 相似性揭示出潜在合作关系
[10 ]
1
1. 1
{
1 0
a=b a≠ b
( 1)
按 2. 1 节所述构建作者关键词二分图网络,作者只有 出度没有入度。根据 SimRank 思想指向相似关键词的作者 是相似的,作者 A i 和 A j 之间的相似度计算见公式 ( 2 ) 。
C S k + 1 ( A i, A j) = | O( A i) | | O( A j) | } 1
S k + 1 ( K i, K j) =
2
基于 SimRank 的作者相似度计算方法
图 2 展示了基于 SimRank 的作者相似度计算流程 。 首
先是获取数据集,对数据进行预处理,筛选领域核心作者 和关键词。然后根据共现关系构建作者关键词共现网络 。 最后利用 SimRank 算法计算相似度,得到作者相似度矩阵
[2 ] [1 ]
、社 区 划
分析等。 citation Analysis, ACA ) 作者同被引分析 ( Author Co认为两个作者发表的文献被相同文献引用的次数越多,则 二者研究内容越相似。 ACA 吸引了学者广泛关注: 邱均 平
[4 ]
、挖掘潜在合作关系[3] 等方面有广泛的应用,一直
以来都是图书情报领域的重点研究问题 。 围绕这个问题, 国内外研究人员已经展开了大量的研究工作,提出了许多 计算方法,如作者共被引分析、作者文献耦合分析、 作者 关键词共现分析等。然而现有的作者相似度算法都是通过 作者间的某种直接关联 ( 如引用了相同的文章或标注了 相同的关键词) 来计算作者间的相似度,忽略了作者间 的间接关联。本文提出一种新的基于 SimRank 的作者相似 度计算方法,充分考虑作者关键词二分图网络的整体结构 特性,利用图结构相似度算法挖掘出作者间以及词汇间的 潜在关联关系。通过选取图书情报领域代表学者作为对象 进行实验,验证该方法能够更准确地识别作者之间的相 似度。
[16 ]
强化,整个二分图中作者间相似度 、关键词间相似度达到 稳定的过程。
3
3. 1
实验
数据预处理与网络构建 本文以 Web of Science 为数据源,选取图书情报学领
图2 基于 SimRank 的作者相似度计算流程
作者关键词共现网络 作者关键词共现网络能够直观揭示领域作者研究内容
之间的联系,客观反映作者研究方向和兴趣 。 数据预处理 得到 n 位作者所使用的 m 个关 键词。 以 作 者 和 关 键 词 为 节 点,节点集合 V = V A ∪ V K ,其 中 V A 为 作 者 集 合 V A = { A1 , A2 ,A3 ,…, A n } , V K 为 关 键 词 集 合 V K = { k1 , k2 , k3 , …, k m } 。 通过共现关系构建 边,若作 者 A i 使 用 关 键 词 k j 的频次为 ω,则对应边的权重 为 ω A i, K j = ω。 作者关键词共现 网络为 如 图 1 ( a ) 所 示 的 二
式中,I( K i ) 表示关键词节点 K i 的入链邻居节点集合, 即使用关键词 K i 的作者集合; I s ( K i ) 表示集合 I ( K i ) 的 一个元素 ( 一位作者) 。公式 ( 2 ) 和公式 ( 3 ) 中常数 C 为相似度 “扩散 ” 衰减系数。 如图 1 ( b ) 所示在相似度 “扩散” 过程中,加入衰减系数 C,0 < C < 1 , S ( V3 , V4 ) = C* S ( V1 ,V1 ) 。系数 C 的取值会影响作者间相似度计 算结果和关键词相似度计算结果 。 大体上, C 的取值越大 网络中节点间相似度均值越大
、朱学芳[5] 对作者同被引的可视化方面进行了研究;
[7 ]
C. H. Hsiao[6] 将 ACA 应 用 于 探 测 技 术 接 受 模 型 ( TAM ) 研究的知识结构和主要趋势; 胡吉明 度分析了我国信息服务研究 。 作者耦合 ( Author Coupling,AC) 的思想是两个作者 引用相同文献的次数越多,则他们的研究方向越相似 。 作 者耦合可以用来研究文献作者之间的研究兴趣 、 探测知识 结构,是作者同被引分析的有益补充
{
C | I ( K i) | | I ( K j) | 1
| I ( K i) | | I ( K j) |
I(K)) ∑ ∑S (I(K),
k s i t j s =1 t =1
i≠j i=j
( 3)
— 110 —
·第 38 卷 2015 年第 6 期·
情报理论与实践 ( ITA) 欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟