加权PageRank算法研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
加权PageRank算法研究综述
摘要:自pagerank提出以来,就引起了学界广泛关注。
在概述pagerank算法的基础上,从topicrelated pagerank﹑时间维加权pagerank和科研学术网络中加权pagerank这3个方面对加权pagerank算法进行了综述和评价。
关键词:pagerank;加权算;学术网络
中图分类号:tp312 文献标识码:a 文章编号:16727800(2013)002003003
1 pagerank算法基本思想
pagerank算法是google用来标识网页的等级重要性的一种方法,由google的创始人之一拉里-佩奇提出。
brin和page在其论文中提出一种用户行为的模型:假设有一个随机的网络冲浪者,任意给定一个网页,以该网页为起始页面根据该网页链接所设定的浏览路径访问其他网页,由于可能陷入某些网页相互链接所形成的循环中,该网络冲浪者也可能不依据网页结构中内置的跳转关系访问,直接跳转一个随机页面。
在brin和page的随机模型中,一个随机的网络冲浪者访问一个页面的可能性就是该网页的pagerank 值。
pagerank算法的基本思想是借鉴传统的学术文献的引文分析方法,即一篇文献的重要性可以通过其它文献对其引用的数量来衡量。
并把这一思想应用到了web页面中,即“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系来判定所有网页的
重要性。
如果页面 a通过超级链接指向了页面b,相当于页面a给页面b投了一票,页面a需要把自己的一部分 pagerank 值分给页面b。
最后,根据每个页面的pagerank 值来判断页面的重要性,重要的页面会在搜索引擎的搜索结果中位于前列。
如果一个网页有许多网页都指向它,那么它可能获得很高的pagerank值;如果一个网页被一个本身pagerank值很高的页面所指向,那么它同样可能具有很高的pagerank值。
2 加权pagerank算法
pagerank是一个与查询无关的静态算法,所有网页的pagerank 值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。
但同时也存在一些缺陷,不具有动态性,如pagerank 忽略了主题相关性,导致结果的相关性和主题性降低,另外pagerank有很严重的对新网页的歧视。
pagerank的改进方案有很多,归纳起来主要分为两大类,分别用于改进pagerank算法的效率与效果。
前者求解矩阵特征向量和大型稀疏矩阵线性方程组的问题,后者主要按照现实网络中的各种实际特性添加权重因子,改进pagerank值均衡分配的状况。
pagerank算法的效率问题不在本文要探讨的范围之内,本章将主要分析各种改善某些效果的加权pagerank形式。
如在搜索引擎中,考虑主题因素方面的影响以提高查询结果的针对性,考虑时间因素的影响以更好地处理新旧网页的关系;在科研学术网络中通过考虑期刊影响、著者影响以及文章质量的现实差异,对相关网络中的节点予以相应权重,对更客观地评
价期刊、著者以及论文是十分有效的。
2.1 topicrelated pagerank
chakrabarti以及pennock等提出web的结构性与页面主题是密切相关的结论。
chakrabarti等指出一个网页倾向于链向主题相关性的网页,这从一定角度解释了pagerank这一与查询无关的排序方式在搜索结果排序中的有用性,更重要的是给研究者以提示:通过考虑网页的主题特性可以改进pagerank的效果。
rafiei和mendelzon提出了计算基于特定主题的网页的重要性的加权pagerank算法,他们强调主题范围,并认为在某一主题范围内,如果有许多网页链向某一网页或者说有很多高影响的网页指向该网页,则该网页比较重要。
hilltop提出了hilltop算法,通过对查询关键词进行一次普通查询,找出所有匹配的专家页面,然后根据目标网页获得的上述专家文档链接的数量和质量分配一个行业得分,再将此值与pagerank得分进行整合,形成最终的页面得分。
pal和narayan在标准pagerank计算公式基础上考虑了网络中节点的主题性差异,主要对按链接关系跳转部分进行改进,对随机跳转部分未作改动。
在模型中,查询某主题的访问者更倾向于访问相同主题的网页,减小不相干主题的网页访问的可能性。
lan nie等在也对topic相关的pagerank算法进行研究,不过他利用文本向量作为topic的权重对pagerank进行加权。
在他们的模型中,一个带有查询主题的随机冲浪者面临3种选择:①以一个随机的跳转到任一主题的网页;②根据网页链接跳转到同一主题
范围内的网页;③根据网页链接跳转到不同主题的网页。
haveliwala提出了一种基于网页内容的topicsensitive pagerank,主要是找到恰当的个性化向量代替标准pagerank中的p。
首先,离线计算各网页所属类别,在用户提交查询请求后进一步计算查询所属类别,通过网页主题与查询主题的匹配以及pagerank
的结合,即可得到topicsensitive pagerank得分。
haveliwala的思想是比较早被提出来并得到了广泛的认可。
haveliwala在他的研究中通过实验证实,该改进的pagerank算法比标准的pagerank算法效果好。
richardson和domingos通过为每一个查询产生一个pagerank向量以得到更合理的、加强的pagerank值,他们提出了一个目标导向的冲浪者模型:冲浪者基于他的查询目标和网页内容,理性地在相关页面间跳转,而跳转概率取决于查询依赖的pagerank值。
2.2 时间维加权的pagerank
pagerank计算公式是依据网页的链接结构计算网页的重要程度的,因此,在网页链接不变的情况下,由pagerank确定的网页排序也是固定的。
在实际情况中,web是不断变化的,不断有新的网页加入,也许新网页质量很高,但是由于放到web上时间短,未被其它网页引用,故可能在用pagerank对相关结果排序时排在质量不高的网页后面。
而且,在某些情况下,新网页带给用户的价值更大,如在新闻搜索或者微博搜索中的应用。
所以,有学者研究某些机制用于pagerank中,使得网页的pagerank值随时间维变化,老
网页的值随时间衰减,从而保证新网页更容易获得重视。
philip.s yu等早在2004年提出了timedpagerank的思想,他将时间作为一种权重因子,整合进pagerank计算过程。
他的这一想法首先在学术搜索中使用,将文章的引用时间作为时间维权重因子的主要考虑方面,该其计算公式如下:prt(a)=(1-d)+d×(w1×prt(pi)c(pi)+…+wn×prt(pi)c(pi))
(1) pr(a)是文章a的pagerank值,pr(pi)是引用文章a 的某文章pi的pagerank值,c(pi)是文章pi的所有引用数,d 是阻尼系数,在philip.s yu等的研究中取值为0.85。
通过上述公式,可以看到timedpagerank所做的工作主要是对每一次引用加上了时间维wi的考虑,wi是一个与引用发生的时间相关的量。
wenpu xing和ali ghorbani等提出了一种考虑网页链入链出结构的加权pagerank算法,他们认为权威的网页,在网络中应该具有核心的位置,发挥核心作用,不仅指向它的网页多,而且被它链向的网页也应该多,并且通过实验证实了基于出入链结构加权的pagerank算法效果比标准的pagerank算法效果好。
其在研究中提出的算法如下:r(u)=(1-d)+d∑v∈b(u)pr(v)w(v,u)inw(v,u)out
(2)其中,pr(u)指页面u的pagerank值,d为衰减因子,一般取值0.85,pr(v)是页面v的pagerank值,v指向页面u,b (u)是链接到页面u的所有页面集合,w(v,u)in是链接(v,u)的入链权重,w(v,u)out是指链接(v,u)的出链权重,这两个
链接权重的计算公式如下:w(v,u)in=1u∑p∈r(v)ip (3)
w(v,u)out=ou∑p∈r(v) op
(4) r(v)是网页v中所有的链接数,网页p是网页v中链接所指向的任一网页,iu、ip分别是网页u、网页p的入链数,ou、op分别是网页u、网页p的出链数1。
王崝等在philip.s yu和xing wenpu等的研究基础上做了相应的改进,提出了twpagerank,更有利于高质量网页的上升和旧的普通网页的下沉,优化了排序结果,具体算法描述如下:pr(u)=(1-d)n+d∑v∈b(u)pr(v)w(v,u)inw(v,u)outwt
(5)其中,pr(u)指页面u的页面等级值,d为衰减因子,一般取值0.85,pr(v)是页面v的pagerank值,v指向页面u,b (u)是链接到页面u的所有页面集合,w(v,u)in是链接(v,u)的入链权重,w(v,u)out是指链接(v,u)的出链权重,它们的计算见(3)式和(4)式。
wt表示页面u的时间维权重,网页发布时间越早,它的时间维权重就越小,具体计算表示为:wt=decayratea(pagei,t)/12 (6)2.3 科研学术网络中加权pagerank
在科研学术网络中运用加权pagerank分析节点重要性由来已久。
在期刊引用网络中,早在2006年,bollen等就使用加权pagerank对期刊引文网络进行分析,将引用次数作为权重因子改造标准的pagerank算法,并在研究中证实了研究中使用的加权
pagerank能很好地反映期刊prestige。
在引文网络中,erjia yan 等抽取jasist上1998-2007年的引文数据,在其构建的引文网络中使用了加权pagerank,其中将引用期刊的影响和引用与被引文章发表的时间间隔作为权重影响因素。
liuxiaoming等构建的合著网络中,将著者间的合著次数以及每篇文献的合著者数量作为加权pagerank计算时的权重因子,研究著者影响力排名情况,并与社会网络分析法中的其它指标进行对比分析。
erjia yan等也在合著网络中将著者的被引情况作为权重因子,使用加权 pagerank研究著者影响力。
加权pagerank在科研学术网络中运用得较多,鉴于本文主要在合著网络与引文网络中使用加权pagerank开展相关研究,下面将选取相关研究中涉及每一种网络的pagerank加权形式进行详细说明。
(1)期刊引文网络中的加权pagerank。
bollen等用2003年isi jcr的期刊引文数据构建期刊引文网络,在研究中将期刊引文数据处理成矩阵形式,矩阵的行列均为期刊,矩阵元素表示期刊间相互引用频次。
这个矩阵就清晰呈现了期刊间的引用关系,为了分析期刊权威度,bollen针对期刊网络引用网络对标准pagerank进行改进,对期刊间的引用分配了权重。
具体算法如下:prw(vi)=(1-λ)n+ λ∑jprw(vj)×w(vj,vi)
(7) prw(vi)、prw(vj)代表期刊vi、vj的pagerank值,w(vj,vi)代表期刊vi引用期刊vj时vj的pagerank值传递给vi的比重,其详细计算公式如下:w(vj,vi)=w(vi,vj)∑kw
(vj,vk)
(8) w(vj,vi)代表期刊vi引用期刊vj的频次,∑kw(vj,vk)代表期刊vi的引用次数总和。
(2)引文网络中的加权pagerank。
mikalai krapivin等借鉴pagerank思想,提出了focused page rank (fpr)算法,以更好地解决科研文章评价问题,focused page rank (fpr)实质是一种加权的pagerank,其加权理念是高被引的文章在学术视野中将更容易被读者发现以及引用。
focused page rank (fpr)的计算公式如下:fpri=(1-d)·∑j∈di≠jfprj·s(j|i)+dn (9) fpri、fprj分别是文章i、j在计算过程中的分值,d是所有引用了文章i的文章集合,n是数据集中文章总数,即引文网络中节点总数,d是阻尼因子,同标准pagerank,s(j|i)是引用了文章i的文章j在分配fpr值时的比例,其计算见下式:s(j|i)=c(i)∑k∈dc(k)
(10) c(i)是文章i被引总次数,d是文章j的所有引用文献。
(3)合著网络中的加权pagerank。
liuxiaoming等针对合著网络的pagerank应用情况提出了一种加权形式的pagerank算法,即authorrank。
authorrank和pagerank的不同在于,著者的权重不再平均的分配给与其合著过的所有著者,而是按照合著者之间的关系权重来不同比例的分配,如(2)式,其中q为平滑系数。
pagerank计算的
是一个二值有向网络,而authorrank计算的是一个加权有向网络,pagerank和authorrank在权重传递过程中,前者按1/l(j)平均传递,后者按合作者关系权重的不同比例wi,j而传递。
authorrank (j)=(1-q)+q∑ni=0authorrank(i)×wi,j
(11)显然后者更能区别著者在合著网络中的核心地位。
authorrank算法让多次合著的两个著者之间的关系权重更大,从而在权重传递中分配较多的权重;同时一篇文章合著者越多,合著者之间的关系权重越小,在权重传递中分配较少的权重。
特别是后者,一篇文章合著者过多的时候,每个合著著者在权重传递中分配较少的权重。
具体加权因子wi,j的计算公式如下:gi,j,k=1f(ak)-1
(12)
ci,j=∑mk=1gi,j,k
(13)
wi,j=ci,j∑nk=1ci,k
(14)著者集合v={v1,v2,v3,…,vn},文献集合a={a1,a2,…,am},文献ak的合著者数为f(ak),著者vi和vj的合著关系从文献ak处获得的部分权重见公式,著者vi和vj在所有文献ak中所获取的gi,j,k之和,即为合著网络中节点vi到vj的边的权重ci,j;同时,需对权重进一步做归一化处理,保证每个节点的关系权重之和为1;这样便得到了pagerank的权重因子wi,j。
3 结语
自pagerank提出以来,就引起了广泛关注,其迭代思想能够较好地结合质与量,同时也还存在改进空间。
因此,各种加权形式的pagerank被纷纷提出,以取得更好的排序效果。
在计算机领域,主要考虑出入链权重、主题因素以及时间方面的影响,在科研评价界则主要用于期刊引用网络、引文网络以及合著网络3种网络对相应的节点事件进行评价,其加权因素主要涉及期刊引用频次、引用时间(期刊引文网络)、文章被引频次(引文网络)、合著频次及合著者数(合著网络)。
可以看到pagerank及加权pagerank已经引起科研评价界学者的广泛关注,且其在评价中的运用愈将成熟。
参考文献:
\[1\] l page, s brin, r motwani,et el. the pagerank citation ranking: bringing order to the web\[r\]. technical report,stanford digital libraries sidlwp19990120,1999
\[2\] 杨彬,康慕宁.基于概念的权重pagerank改进算法\[j\].情报杂志,2006(11)
\[3\] soumen chakrabarti , mukul m joshi , kunal punera, et el.the structure of broad topics on the web\[c\].international world wide web conference,2002 \[4\] rafiei d, mendelzon a o.what is this page known for computing web page reputations\[c\].in: proceedings。